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RHPFSERELE, 拥有 中 科 院 模式 识别 ( 人工 智能 ) 和 香港 中 文大 学 
金融 MBA 两 个 专业 的 硕士 学 位 , 是 典型 的 复合 型 人 才 。 他 一 直 致 力 于 通过 机 
器 学 习 等 人 工 智能 方法 ， 解 决 国内 资本 市 场 信用 债 投资 时 所 面临 的 外 部 评级 虚 
高 、 无 法 真实 有 效 地 反映 融资 主体 的 信用 状况 、 无 法 用 于 融资 成 本 定价 等 行业 
痛 点 。 

中 国债 券 市 场 , 自从 2014 年 3 月 5 日 第 一 只 信用 债 " 超 日 债 ”违约 以 来 ， 
截至 现在 已 经 有 228 只 信用 俩 发 生 违约 ， 且 违约 事件 的 发 生 有 明显 加 速 的 迹 
Ro 随 着 中 国 经 济 进入 中 低速 、 但 高 质量 增长 的 新 常态 ， 及 未 来 很 长 一 段 时 
间 我 国 可 能 面临 的 严峻 外 部 经 济 环境 ， 可 以 预 判 中 国债 券 市 场 违约 事件 会 频 
发 ， 违 约 进入 新 常态 。 

美国 著名 经 济 学 家 、 诺 贝尔 经 济 学 奖 得 主 保罗 ， 克 鲁 格 曼 教 授 ， 提 出 了 著 
名 的 “三 元 悖 论 ” ， 即 开放 经 济 下 的 政策 选择 只 能 同时 满足 : 本 国货 币 政策 的 
独立 性 、 汇 率 的 稳定 性 和 资本 的 完全 流动 性 中 的 两 个 ， 而 无 法 同时 满足 全 部 三 
个 。 改革 开放 40 年 来 ,中国 的 宏观 经 济 政策 在 货币 政策 相对 独立 、 人 民 币 汇 
率 相对 稳定 的 前 提 下 ,主要 依靠 人 口红 利 、 制 度 红 利和 资源 红利 等 的 不 断 释 
Ax, 实现 了 快速 的 跨越 式 发 展 , 发 展 中 出 现 的 问题 被 高 速 的 经 济 增长 所 掩盖 。 
(fe, 随 着 这 些 红利 的 不 断 消失 , 之 前 不 断 积累 的 问题 也 都 已 经 慢 慢 地 凸显 出 
来 了 。 在 金融 领域 表现 得 最 突出 的 问题 是 金融 稳定 、 渐 进 性 改革 、 定 价 体系 
缺失 造成 的 套利 机 会 并 存 , 这 三 个 矛盾 构成 了 中 国 金 融 政策 的 “三 元 悖 论 ”。 
也 就 是 说 , 为 了 维护 中 国 的 金融 稳定 ,政府 机 构 选择 了 “ 修 修补 补 ” 式 的 渐进 
性 改革 ， 而 这 种 形式 的 渐进 性 改革 并 没有 完全 遵守 金融 具有 全 局 性 属性 的 基本 
原理 ， 这 就 必然 会 对 定价 体系 造成 扭曲 ， 从 而 产生 大 量 的 套利 机 会 。 ABE 
利 机 会 的 存在 必然 影响 中 国 的 金融 稳定 。 因此 ， 这 是 中 国 金融 政策 的 “不 可 
能 三 角 ”。 

问题 的 存在 一 直 以 来 都 是 我 们 发 展 的 动力 ， 中国 经 济 要 想 实现 高 质量 的 健 
康 发 展 ， 需 要 不 断 化 解 中 国 金融 政策 面临 的 “不 可 能 三 角 ”。 伴随 着 人 工 智 
能 、 大 数据 和 移动 互联 网 等 技术 的 不 断 发 展 ， 金 融 科 技 不 断 推 动 着 传统 金融 业 
ARS, 我们 逐渐 地 看 到 了 解决 中 国 金融 政策 “不 可 能 三 角 ” 的 突破 口 。 MR 
E, 通过 逐渐 建立 各 层次 、 各 类 别 资本 市 场 的 定价 体系 ,来 逐渐 消除 套利 机 会 
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并 建设 稳定 的 金融 体系 。 目前 , 债券 市 场 已 经 初步 具备 了 建设 合理 定价 体系 
的 条 件 ， 这 主要 是 因为 随 着 债券 市 场 违约 事件 的 不 断 增多 ， 信 用 利 差 在 不 断 扩 
大 ,尤其 是 高 收益 债券 的 信用 利 差 出 现 明显 扩大 的 趋势 ， 这 就 为 债券 发 行 主体 
的 定价 提供 了 有 利 的 前 提 条 件 。 债券 市 场合 理 定价 的 前 提 是 有 一 个 市 场 化 的 
信用 评级 体系 ,该 体系 可 真实 有 效 地 反映 债券 发 行 主体 信用 风险 的 高 低 。 

债券 市 场 现 有 的 外 部 评级 体系 ， 由 于 监管 、 财 报 粉饰 较 普遍 等 原因 ， 表现 
出 了 明显 的 “ 虚 高 ”和 评级 调整 严重 滞后 的 弊端 。 我 认为 本 书 提出 的 基于 场 
外 实时 数据 并 采用 机 器 学 习 技 术 的 量化 评级 方法 可 较 好 地 解决 外 部 评级 的 次 
端 。 这 些 场 外 数据 主要 包括 司法 、 招 聘 、 股 权 出 质 、 动 产 抵押 、 高 管 变 动 、 对 
外 投资 、 实 际 控制 人 风险 等 ,完全 可 以 从 非 财务 的 侧面 反映 一 家 公司 真实 的 经 
营 状 况 ， 剔 除了 由 于 财务 粉饰 给 我 们 造成 的 噪声 干扰 ， 仅 保留 能 够 真实 反映 企 
业 还 款 能 力 的 信号 。 这 在 国内 资本 市 场 的 信用 评级 领域 是 一 个 较 大 的 创新 。 
我 期 待 着 这 种 量化 研究 方法 逐渐 得 到 业内 同仁 的 认可 。 


何 4 
原 证 监 会 规划 发 展 委员 会 委员 ,深交 所 综合 研究 所 所 长 ,南方 科技 大 学 教授 
2018 年 9 月 25 日 


笔者 硕士 毕业 于 中 国 科学 院 自动 化 研究 所 ， 专 业 是 模式 识别 与 智能 系统 。 
因此 ， 人 工 智 能 是 笔者 的 专业 ! 10 年 前 笔者 在 自动 化 所 读书 时 ， 人 工 智能 这 
个 专业 远 没 有 像 今天 这 样 火爆 。 BEB AlphaGo 在 人 机 博弈 领域 的 围棋 对 弈 中 
不 断 取 得 辉煌 的 成 绩 ， 人 工 智 能 再 次 走向 辉 粕 ， 几 乎 被 很 多 媒体 描述 成 “无 所 
AEE” o 

RR, 人工 智 能 有 强 弱 之 分 ， 即 强人 工 智能 和 弱 人 工 智 能 。 强人 工 智能 通 
常 表现 为 在 多 个 领域 可 用 计算 机 来 代替 人 类 或 者 比 人 类 做 得 更 好 , 而 弱 人 工 智 能 
通常 是 指 在 某 一 特定 领域 计算 机 比 人 类 做 得 更 好 ， 如 棋牌 类 游戏 、 量 化 投资 等 领 
域 。 目 前 , 强人 工 智能 还 只 是 幻想 ， 弱 人 工 智 能 在 某 些 特定 领域 已 经 取得 了 惊 
人 的 成 绩 。 那么 ， 人 工 智 能 可 应 用 于 哪些 领域 呢 ? 通常 地 讲 ， 能 产生 大 量 数据 
且 这 些 数 据 可 实现 自动 标注 的 领域 , 均 适 用 于 人 工 智能 。 例如 金融 行业 ， 它 每 
天 都 产生 大 量 的 数据 ， 且 这 些 数据 都 可 实现 自动 标注 ， 因 为 股票 要 么 上 涨 、 要 人 么 
FR, 债券 要 么 正常 兑付 、 要 么 违约 。 Al, 无 场景 不 Al (人 工 智 能 ) o 

深度 学 习 技 术 的 突破 是 这 次 人 工 智能 浪潮 的 巨大 推动 力 之 一 。 深度 学 习 的 
思想 跟 传统 机 器 学 习 相 比 ， 是 一 个 颠覆 性 创新 , 在 思维 方式 上 是 完全 不 同 的 。 
传统 机 器 学 习 一 般 是 通过 大 量 数据 寻找 因果 关系 ， 而 深度 学 习 一 般 是 通过 分 层 特 
征 提取 并 通过 激活 函数 寻找 关联 关系 ， 这 正 是 大 数据 方法 的 思维 方式 。 

本 书 重 点 介绍 的 是 人 工 智 能 方法 在 信用 债 投资 领域 应 用 的 实践 方法 ， 提 供 
了 大 量 的 Python 源 代 码 ， 可 供 信用 债 投资 者 快速 建立 自己 的 信用 债 量化 投资 
信用 风险 分 析 体系 。 随 着 国内 债券 市 场 的 快速 发 展 , 目前 存量 债券 已 经 超过 
35 000 只 ， 如 此 多 的 投资 标的 ， 如 果 还 是 采用 传统 的 、 基 于 人 工 的 主观 判断 和 
信息 筛选 ， 这 个 工作 量 是 非常 巨大 的 。 自从 2014 年 3 月 5 日 国内 第 一 只 债券 
“ 超 日 债 ”违约 以 来 , 截至 现在 已 经 有 228 只 债券 发 生 违 约 , 信用 风险 越 来 越 
受到 投资 者 的 重视 ,建设 自己 的 、 能 够 为 投资 决策 提供 有 效 支持 的 信用 风险 计 
量 和 管理 体系 ， 对 广大 金融 机 构 来 说 已 经 非常 迫切 。 

但 是 ,建设 科学 、 实 用 的 信用 债 投资 分 析 体 系 ， 在 国内 资本 市 场 的 现状 下 
面临 很 多 无 法 解决 的 客观 困难 。 例如 , 发 债主 体 信息 披 露 不 及 时 、 财 务 粉饰 现 
象 普遍 存在 、 违 约 状态 跟 盈 利 状况 正 相 关 、 违 约 样本 极 少 , 造成 样本 极 不 均衡 、 
外 部 评级 过 度 集 中 且 区 分 能 力 很 差 等 现状 , 作为 普通 的 信用 债 投资 者 我 们 均 无 法 
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改变 这 些 现状 。 我 们 只 能 从 优化 模型 架构 设计 、 获 取 可 提供 稳定 场 外 数据 源 且 
实用 的 指标 等 角度 入 手 , 来 建立 自己 的 信用 债 投资 量化 风险 分 析 体系 。 

本 书 介绍 的 信用 债 投资 量化 风险 分 析 体系 是 笔者 近 10 年 来 经 验 的 总 结 和 

HE, 书 中 详细 介绍 了 通过 模型 架构 优化 来 缓 释 财 报 粉饰 的 模型 开发 方法 ， 介 
绍 了 通过 场 外 真实 数据 来 开发 模型 的 技术 , 还 简单 介绍 了 深度 学 习 技 术 在 信用 
债 投资 量化 风险 分 析 体 系 中 的 应 用 方法 。 这 些 方法 既是 笔者 多 年 经 验 的 结 
晶 ， 也 是 市 面 上 其 他 同类 教材 中 从 来 没有 介绍 过 的 实用 技术 总 结 。 
由 于 财务 粉饰 现象 的 普遍 存在 ， 基 于 财务 数据 的 企业 信用 风险 评估 经 常 出 
WRH, 无 法 挖掘 企业 真正 的 投资 价值 。 本 书 介绍 的 全 部 基于 企业 真实 定性 
数据 的 信用 风险 评估 方法 已 经 得 到 了 笔者 团队 的 充分 验证 , 效果 是 非常 显著 
的 。 这 种 方法 体系 和 实践 方法 在 国内 首屈一指 ,笔者 坚信 会 给 信用 债 投资 分 
析 者 很 大 的 启发 。 

本 书 共 分 为 八 个 章节 ， 其 中 第 1 章 、 第 2 章 重点 介绍 人 工 智 能 、 机 器 学 
习 、 深 度 学 习 的 基本 理论 和 方法 , 也 给 出 了 国内 资本 市 场 最 常见 的 类 别 不 均衡 
问题 的 解决 方案 ; 第 3 章 重点 介绍 基于 TensorFlow 后 台 的 Keras REA 28 
构 ， 并 给 出 实用 案例 ; 第 4 章 重点 介绍 国内 债券 市 场 的 发 展 历程 和 现状 ; 第 5 
章 重 点 介绍 国内 信用 债 投资 分 析 面 临 的 困难 ， 并 给 出 了 详细 的 解决 方案 ; 第 
6~ 8 章 是 本 书 的 开源 技术 部 分 , 详细 讲述 了 大 量 的 核心 技术 , 包括 自动 抓 取 数 
据 、 对 全 市 场 财务 数据 的 统计 检验 和 分 析 、 对 司法 等 场 外 数据 的 统计 检验 和 分 
析 、 财 务 粉饰 的 本 福特 统计 法 则 和 评分 实施 方法 、 用 有 监督 机 器 学 习 开 发 评级 模 
型 的 方法 、 用 深度 学 习 技术 开发 评级 模型 的 方法 、 缓 释 财 报 粉饰 的 评分 卡 模型 架 
构 设 计 和 评分 卡 模型 开发 核心 代码 等 ， 这 三 章 是 本 书 开源 技术 的 核心 部 分 。 

在 本 书 的 写作 过 程 中 , 得 到 了 家 人 、 朋 友和 团队 成 员 的 大 力 支持 ,没有 他 
们 的 支持 和 帮助 ,笔者 不 可 能 心 无 旁 从 地 构思 本 书 的 写作 思路 ， 在 此 对 他 们 的 
贡献 表示 真诚 的 感谢 。 本 书 的 前 五 章 和 附录 部 分 由 笔者 完成 , 第 6~8 章 中 的 
部 分 Python 源 代码 由 团队 成 员 刘 志 兴 等 完成 初稿 ， 并 由 笔者 完成 测试 和 剩余 
的 逻辑 分 析 部 分 。 

读者 若 有 问题 与 作者 交流 ,请 发 邮件 至 yuzheng.cui@ qq.com。 扫 一 扫 以 
下 二 维 码 ， 可 获得 本 书 的 源 代码 。 
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Python 语言 基础 … 
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机 具备 智能 。 图 


的 一 系列 问题 ,上 且 不 能 被 辨别 出 其 机 器 身份 , 则 该 计算 机 通过 测试 ,说 明 该 计算 


灵 测 试 的 基本 原型 ,如 图 1. 1 所 示 。 
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图 1.1 图 灵 测 试 的 基本 原型 


在 图 1. 1 所 示 的 图 灵 测 试 的 基本 原型 中 ,C 代表 人 类 ,他 通过 一 定 的 媒介 向 


被 测试 者 A 或 了 提问 一 系列 的 问题 ,通过 测试 者 对 这 些 问 题 的 回答 ,如 果 C 无 
法 辨别 回答 者 是 人 还 是 机 器 , 则 说 明 被 测试 者 具有 智能 。 

图 灵 还 为 这 项 测试 拟定 了 几 个 示范 性 问题 ,如 下 所 示 。 

问 : 请 给 我 写 出 有 关 “ 第 四 号 桥 ” 主 题 的 十 四 行 诗 。 

B: 不 要 问 我 这 道 题 , 我 从 来 不 会 写 诗 。 

问 : 34 957 加 70 764 等 于 多 少 ? 

答 :( 停 30 秒 后 )105 721。 


问 : 你 会 下 
答 : 是 的 。 
问 : REK 


国际 象棋 吗 ? 


处 有 棋子 K; 你 在 K6 处 有 棋子 K, 在 RI 处 有 棋子 R。 轮 到 你 


走 , 你 应 该 下 哪 步 棋 ? 

答 :( 停 15 秒 钟 后 ) 棋 子 R 走 到 RS 处 ,将 军 ! 

由 图 灵 测 试 的 基本 原型 可 知 ,在 某 一 特定 细 分 领域 , 即 提问 者 C 提出 的 问 
题 仅 限于 某 一 特定 的 狭窄 领域 ,此 时 通过 大 量 的 数据 测试 和 模型 训练 ,是 不 难 通 


过 图 灵 测 试 的 。 


这 种 应 用 于 细 分 领域 的 人 工 智能 通常 被 称 为 弱 人 工 智能 。 红 极 


一 时 的 AlphaGo 就 属于 弱 人 工 智 能 的 典型 应 用 ,也 就 是 说 AlphaGo 只 能 用 于 
下 围棋 ,不 能 直接 用 于 其 他 领域 。 如 果 想 将 AlphaGo 应 用 于 其 他 领域 ,需要 用 
该 领域 的 数据 做 大 量 训练 后 , 才 有 可 能 适用 。 

如 果 提 问 者 C 提出 的 问题 ,不 预 设 场景 .可 随意 提问 ,被 测试 者 仍 能 通过 图 
灵 测 试 , 则 这 时 通常 被 称 为 强人 工 智能 。 显 然 ,强人 工 智能 基本 是 不 可 能 的 。 因 
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为 这 需要 机 器 存储 人 类 有 史 以 来 的 所 有 数据 ,并 训练 出 人 类 所 有 可 能 的 知识 和 
推理 ,这 是 根本 不 可 能 完成 的 工作 。 

可 见 , 人 工 智 能 是 机 器 智能 ,不 是 人 类 智能 ,也 不 是 类 人 智能 。 机 器 智能 是 
必须 通过 提取 大 量 数据 ,并 进行 自动 标注 后 计算 得 到 的 智能 。 而 除 此 之 外 ,人 类 
智能 还 包括 不 可 计算 的 智能 ,如 情感 直觉 .感知 等 。 


1.2 人 工 智 能 、 机 器 学 习 和 深度 学 习 


由 图 灵 测 试 的 基本 原型 可 知 ,人 工 智 能 不 是 一 项 技术 ,而 是 一 种 技术 结果 的 
最 终 展现 。 即 一 系列 技术 的 成 果 通 过 了 图 灵 测 试 , 则 认为 该 技术 成 果 具 备 了 智 
能 。 实 现 人 工 智能 有 很 多 种 方法 ,包括 规划 调度 .专家 系统 、 多 代理 系统 .进化 计 
算 、 机 器 学 习 、 知 识 表述 、 推 荐 系统 等 ,如 图 1.2 所 示 。 


规划 调度 有 监督 学 习 
专家 系统 无 监督 学 习 
多 代理 系统 半 监督 学 习 
mm ES du 深度 学 习 
知识 表述 
— mee 


图 1.2 部 分 人 工 智能 研究 分 支 和 研究 方法 


目前 ,用 机 器 学 习 技术 实现 人 工 智 能 的 方法 产生 了 令 人 兴奋 的 结果 。 机 天 
学 习 是 一 大 类 技术 的 统称 ,又 可 分 为 有 监督 机 器 学 习 技 术 ( 需 要 标注 数据 ) 和 无 
监督 机 器 学 习 技术 (不 需要 标注 数据 ), 而 深度 学 习 又 是 有 监督 机 器 学 习 技 术 中 
的 一 个 重要 研究 分 支 。 人 工 智 能 、 机 器 学 习 和 深度 学 习 的 区 别 与 联系 如 下 所 示 。 


1. 机 器 学 习 : 一 种 实现 人 工 智能 的 方法 


机 器 学 习 最 基本 的 做 法 ,是 使 用 算法 来 解析 数据 ,从 数据 中 按照 一 定 的 规则 
训练 出 规律 ,然后 对 真实 世界 中 的 事件 作出 决策 和 预测 。 与 传统 的 为 解决 特定 
任务 . 硬 编码 的 软件 程序 不 同 , 机 器 学 习 是 用 大 量 的 数据 来 "训练 ”, 通 过 各 种 算 
法 从 数据 中 学 习 如 何 完成 任务 。 举 个 简单 的 例子 , 当 我 们 浏览 网 站 时 ,经 常会 出 
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现 电 子 商务 网 站 广告 的 商品 推荐 信息 。 这 是 电子 商务 网 站 根据 你 以 往 的 购物 、 
点 击 和 浏览 记录 ,识别 出 这 其 中 哪些 是 你 真正 感 兴趣 ,并 且 愿 意 购买 的 产品 ,并 
推荐 给 你 。 这 样 的 决策 模型 ,可 以 帮助 电子 商务 网 站 为 客户 提供 建议 并 鼓励 购 
买 产品 。 机 器 学 习 直 接 来 源 于 早期 的 人 工 智能 领域 ,传统 的 算法 包括 决策 树 、 
K 均值 聚 类 、 贝 叶 斯 分 类 支持 向 量 机 等 。 从 学 习 方法 上 来 分 ,机 器 学 习 算法 可 
以 分 为 有 监督 学 习 ( 如 分 类 问题 ) .无 监督 学 习 ( 如 聚 类 问题 )` 半 监督 学 习 、 集 成 
学 习 、 深 度 学 习 和 强化 学 习 等 。 传 统 的 机 器 学 习 算法 在 指纹 识别 `\ 人 脸 检 测 、 语 
音 识别 等 领域 的 应 用 基本 达到 了 商业 化 的 要 求 或 者 特定 场景 的 商业 化 水 平 , 但 
每 前 进一步 都 异常 艰难 ,直到 深度 学 习 算 法 的 出 现 。 


2. 深度 学 习 : 一 种 实现 机 器 学 习 的 技术 


深度 学 习 本 来 并 不 是 一 种 独立 的 机 器 学 习 方 法 ,其 本 身 也 会 用 到 有 监督 和 
无 监督 的 机 器 学 习 技 术 来 训练 深度 神经 网 络 模型 。 但 由 于 近 几 年 该 领域 发 展 迅 
猛 , 一 些 特 有 的 学 习 手段 相继 被 提出 (如 残 差 网 络 ), 因 此 越 来 越 多 的 人 将 其 单独 
看 作 一 种 机 器 学 习 的 方法 。 

最 初 的 深度 学 习 是 利用 深度 神经 网 络 来 解决 特征 表达 的 一 种 学 习 过 程 。 深 
度 神 经 网 络 本 身 并 不 是 一 个 全 新 的 概念 ,可 大 致 理解 为 包含 多 个 隐 含 层 的 神经 
网 络 结构 。 为 了 增强 深层 神经 网 络 的 训练 效果 ,人 们 对 神经 元 的 连接 方法 和 激 
活 函数 等 方面 作出 相应 的 调整 。 其 实 有 不 少 想法 早年 间 也 曾 有 过 ,但 由 于 当时 
训练 数据 量 不 足 、 计 算 能 力 落后 ,因此 最 终 的 效果 不 尽 如 人 意 。 目 前 ,深度 学 习 
令 人 惊讶 地 实现 了 很 多 任务 ,使 得 似乎 所 有 的 机 器 辅助 功能 都 变 为 可 能 ,如 无 人 
驾驶 、 预 防 性 医疗 保健 ,甚至 是 更 好 的 电影 推荐 ,都 近 在 眼前 ,或 者 即将 实现 。 


3. 三 者 的 区 别 和 联系 


机 器 学 习 是 一 种 实现 人 工 智 能 的 方法 ,深度 学 习 是 一 种 实现 机 器 学 习 的 技 
术 。 我 们 就 用 最 简单 的 方法 ,可 视 化 地 展现 出 它们 的 关系 ,如 图 1. 3 所 示 。 

当下 深度 学 习 在 计算 机 视觉 .自然 语言 处 理 领 域 的 应 用 远 超 过 传统 的 机 器 
学 习 方法 ,并 且 媒 体 对 深度 学 习 进 行 了 大 肆 夸 大 的 报道 。 因 此 ,目前 业界 有 一 种 
错误 的 、 较 为 普遍 的 认识 , 那 就 是 "深度 学 习 最 终 可 能 会 淘汰 掉 其 他 所 有 机 器 学 
习 算 法 ”。 深 度 学 习 , 作 为 目前 最 热门 的 机 器 学 习 方 法 ,但 并 不 是 机 器 学 习 的 终 
点 。 其 主要 存在 以 下 问题 。 

(1) 深度 学 习 模 型 需要 大 量 的 训练 数据 ,才能 表现 出 良好 的 效果 ,但 现实 生 
活 中 往往 会 遇 到 小 样本 问题 ,此 时 深度 学 习 方 法 表现 差强人意 ,传统 的 机 器 学 习 
方法 就 可 以 很 好 地 处 理 。 

(2) 有 些 领域 ,采用 传统 的 简单 机 器 学 习 方法 ,就 可 以 很 好 地 解决 问题 了 ， 
没 必要 非得 用 复杂 的 深度 学 习 方 法 。 


天 工 智能 概述 


人 工 智能 


1950's 1960's 1970's 1980's 1990's 2000's 2010's 
图 1.3 人 工 智 能 、 机 器 学 习 和 深度 学 习 的 关系 


(3) 深度 学 习 的 思想 ,来 源 于 人 脑 的 启发 ,但 绝 不 是 人 脑 的 模拟 。 举 个 例 
子 , 给 一 个 4 岁 的 小 孩 看 一 辆 自行 车 之 后 ,再 见 到 哪怕 外 观 完全 不 同 的 自行 车 ， 
小 孩 也 十 有 八 九 能 作出 那 是 一 辆 自行 车 的 判断 。 也 就 是 说 ,人 类 的 学 习 过 程 往 
往 不 需要 大 规模 的 训练 数据 ,而 现在 的 深度 学 习 方 法 显然 不 是 对 人 脑 的 模拟 。 
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为 了 更 好 地 了 解 机 器 学 习 , 我 们 首先 举 个 简单 的 例子 ,说 明 人 的 学 习 过 程 。 
夏天 时 ,我 们 都 去 超市 买 过 西瓜 ,通常 通过 观察 .拍打 等 方法 来 找到 成 熟 的 甜瓜 。 
观察 主要 是 看 西瓜 外 表 的 色泽 和 根 带 的 形状 ,拍打 主要 是 听 声 音 。 随 着 我 们 经 
验 的 不 断 积累 ,采用 上 述 方法 挑选 出 "好 瓜 ” 的 概率 越 来 越 大 。 我 们 经 验 不 断 积 
累 的 过 程 ,可 用 表 2. 1 所 示 的 数据 集 表 示 。 

表 2.1 西瓜 数据 集 


序号 色泽 声响 是 否 好 瓜 
1 青绿 浊 响 是 
2 黑 绿 浊 响 是 
3 青绿 清脆 否 
4 黑 绿 沉闷 否 


通过 人 脑 的 不 断 归 纳 、 总 结 ,我 们 可 以 得 出 "好 瓜 ” 的 模型 是 “ 某 种 色泽 、 某 种 
根 蒂 、 某 种 声响 的 瓜 ”*。 人 脑 的 归纳 和 总 结 ,就 是 人 的 学 习 过 程 ,这 是 一 个 非常 复 
杂 的 、 非 线性 的 神经 元 学 习 网 络 。 

那么 ,机 器 的 学 习 过 程 是 怎样 的 呢 ? 我 们 知道 ,计算 机 只 能 处 理 数字 信和 号 ， 
且 只 能 判断 确定 的 规则 ,如 大 于 、 小 于 、 不 等 于 等 。 对 于 模糊 的 规则 ,如 感知 ` 感 
觉 等 则 无 法 判断 。 举 个 简单 的 例子 说 明 机 器 的 学 习 过 程 ,如 下 所 示 。 

fal: 1 十 4 FJL? 

. 20. 

规则 反馈 : 不 对 ,多 了 。 

fal; 1 十 9 等 于 几 ? 

答 : 13, 

规则 反馈 : 不 对 ,多 了 。 

问 : 3 十 4 等 于 几 ? 

Eom, 

规则 反馈 : 对 了 。 


问 : 6 十 9 等 于 几 ? 

^. 13, 

规则 反馈 : 不 对 , 少 了 。 

很 多 很 多 次 以 后 …… 

fal: 2 十 2 等 于 见 ? 

答 : 4。 

fal: 4 十 5 等 于 几 ? 

答 9。 

这 就 是 机 器 的 学 习 过 程 ,准确 来 说 这 是 机 器 学 习 方 法 中 最 常用 的 一 种 , 叫 有 
监督 机 器 学 习 。“ 监 督 ” 的 意思 ,就 是 数据 集训 练 中 的 规则 反馈 。 

最 开始 的 几 步 是 对 模型 的 训练 “多 了 ”或 “ 少 了 ”可 以 理解 为 训练 时 的 误差 
监督 反馈 ,模型 根据 误差 调整 自身 参数 ,这 就 是 机 器 学 习 里 常用 的 反 向 传播 
(back propagation) 的 简单 解释 。 

通过 以 上 示例 分 析 , 并 结合 专业 教材 对 机 器 学 习 的 定义 ,此 处 ,我 们 给 出 最 
直观 .最 易 理 解 的 定义 ,机 器 学 习 是 一 种 实现 人 工 智 能 的 科学 ,主要 是 通过 数据 
可 自动 总 结 规律 并 改进 性 能 的 计算 机 算法 的 研究 。 


2.1 机 器 学 习 概述 


通常 ,根据 收集 的 样本 是 否 存 在 标注 ,将 机 器 学 习 分 为 有 监督 机 器 学 习 和 无 
监督 机 器 学 习 两 类 。 有 监督 机 器 学 习 所 需要 的 样本 集 数据 ,不 仅仅 包括 特征 数 
据 ,还 包括 每 个 样本 的 一 个 准确 输出 值 , 该 输出 值 即 为 对 该 样本 的 标注 。 如 果 收 
集 的 样本 中 没有 对 每 个 样本 的 标注 , 则 该 数据 集 只 能 用 于 无 监督 机 器 学 习 。 例 
如 ,如 果 我 们 只 收集 每 只 股票 的 开盘 价 、 收 盘 价 、 成 交 额 .成 交 量 、 换 手 率 数 据 , 则 
该 数据 集 只 能 用 于 无 监督 机 器 学 习 ; 而 如 果 我 们 除 此 之 外 还 收集 每 只 股票 的 涨 
跌 信息 ,并 将 涨 跌 信 息 用 于 预测 , 则 该 数据 集 适用 于 有 监督 机 器 学 习 。 


2.1.1 有 监督 机 器 学 习 


有 监督 机 器 学 习 中 的 预测 结果 可 以 是 连续 值 , 也 可 以 是 离散 值 。 根 据 这 样 
的 属性 可 将 有 监督 机 器 学 习 分 为 回归 问题 (regression) 和 分 类 问题 
(classification)。 回 归 问 题 预测 的 结果 一 般 为 连续 值 , 即 因 变 量 为 数量 变量 。 分 
类 问题 预测 的 结果 一 般 为 离散 值 , 即 因 变量 为 分 类 变量 。 


1. 回归 问题 


回归 问题 主要 是 通过 回归 算法 来 探索 样本 数据 与 标注 数据 之 间 关 系 的 一 类 
问题 ,而 衡量 回归 算法 的 规则 通常 是 误差 最 小 。 用 图 2. 1 所 示 的 回归 问题 示例 
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图 表示 ,回归 问题 就 是 使 用 计算 机 算法 寻找 一 条 直线 (Y 一 acX 十 0) ,使 得 图 中 的 
每 个 红 点 距离 该 直线 的 偏差 之 和 最 小 。 


图 2.1 回归 问题 示例 图 


在 有 监督 机 器 学 习 算 法 中 ,常见 的 回归 问题 算法 有 线性 回归 、 逮 辑 回归 、 决 
策 树 回归 、 随 机 森林 回归 支持 向 量 机 回归 等 。 此 处 ,我 们 分 别 以 简单 的 示例 说 
明 这 些 算法 的 使 用 方法 。 


# 回归 问题 算法 采用 的 公用 数据 集 

from sklearn import datasets, preprocessing 

from sklearn.model selection import train test split 
iris-datasets.load iris() 

X, y=iris.data, iris.target 

X train, X test, y train, y test-train test split(X, y, random state 
=33) # 随机 抽样 
Scaler-preprocessing.StandardScaler().fit(X train)  # 标 准 化 数据 
X_train=scaler.transform(X_train) 

X test-scaler.transform(X test) 

#1. 线性 回归 

from sklearn.linear_model import LinearRegression 


lr-LinearRegression (normalize=True) 


lr.fit(X, y) # 采 用 线性 回归 算法 训练 模型 
y pred-lr.predict (X test) # 用 线性 回归 模型 预测 
#2. 逻辑 回归 


from sklearn.linear_model import LogisticRegression 


lg-LogisticRegression() 


lg.fit(X,y) # 采 用 逻辑 回归 算法 训练 模型 
y pred-lg.predict (X test) # 用 逻辑 回归 模型 预测 
+3. 决策 树 回归 


from sklearn.tree import DecisionTreeRegressor 
dtr=DecisionTreeRegressor (max depth=3) 

dtr. fit (x,y) # 采 用 决策 树 回 归 算 法 训练 模型 
y_pred=dtr.predict (X test) # 用 决策 树 回归 模型 预测 


#4. 随机 森林 回归 

from sklearn.ensemble import RandomForestRegressor 
rfr=RandomForestRegressor (max_depth=2, random state-0) 
vrfr.fit(xX, y) # 采 用 随机 森林 回归 算法 训练 模型 
y_pred=rfr.predict (X test) # 用 随机 森林 回归 模型 预测 

#5. 支持 向 量 机 回归 

from sklearn import svm 


clf=svm.SVR() 


clf.fit(X, y) # 采 用 支持 向 量 机 回归 算法 训练 模型 
y_pred=clf.predict (X test) # 用 支持 向 量 机 回归 模型 预测 
2. 分 类 问题 


分 类 问题 主要 是 通过 分 类 算法 来 根据 已 知 样本 的 某 些 特征 ,判断 一 个 新 的 
样本 属于 哪 种 已 知 的 样本 类 别 ,而 衡量 分 类 算法 的 规则 通常 包括 准确 率 .召回 率 
等 。 用 图 2. 2 所 示 的 分 类 问题 示例 图 y 
表示 ,分 类 问题 就 是 使 用 计算 机 算法 寻 
找 一 个 判别 函数 ,使 得 尽 可 能 准确 地 将 
图 中 的 两 类 样本 区 分 开 来 。 

在 有 监督 机 器 学 习 算 法 中 ,常见 的 
分 类 问题 算法 有 逻辑 回归 分 类 、 决 策 树 
分 类 、 随 机 森林 分 类 、 支 持 向 量 机 分 类 、 

最 近邻 分 类 等 。 此 处 ,我 们 分 别 以 简单 0 
的 示例 说 明 这 些 算法 的 使 用 方法 。 图 2.2 分 类 问题 示例 图 


# 公 用 数据 集 


from sklearn import datasets, preprocessing 


from sklearn.model_selection import train_test_split 
iris-datasets.load iris() 

X, y=iris.data,iris.target 

X train, X test, y train, y test-train test split(X, y, random state 
733) 

Scaler-preprocessing.StandardScaler().fit(X train) # 标 准 化 数据 
X_train=scaler.transform(X_train) 
X_test=scaler.transform(X_test) 

#1. 逻辑 回归 分 类 

from sklearn.linear_model import LogisticRegression 

lg clf-LogisticRegression() 

ig ;cif.fit(X,y) # 用 逻辑 回归 分 类 算法 训练 模型 
y pred-lg clf.predict(X test) * LS 48 [6L IH 4) 2 BERE UU 
+2. 决策 树 分 类 
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from sklearn.tree import DecisionTreeClassifier 


dt clf-DecisionTreeClassifier (random state-0) 


dt clf.fit(X,y) # 用 决策 树 分 类 算法 训练 模型 
y pred-dt clf.predict(X test) # 用 决策 树 分 类 模型 预测 
*3. 随机 森林 分 类 


from sklearn.ensemble import RandomForestClassifier 
rf_clf=RandomForestClassifier (max_depth=2, random_state=0) 

rf clf.fit (x,y) # 用 随机 森林 分 类 算法 训练 模型 
y pred-rf clf.predict(X test) # 用 随机 森林 分 类 模型 预测 

*4. 支持 向 量 机 分 类 

from sklearn import svm 

svm clf-svm.SVC() 

svm clf.fit(X, y) # 用 支持 向 量 机 分 类 算法 训练 模型 
y pred-svm clf.predict(X test) # 用 支持 向 量 机 分 类 模型 预测 
#5. k 近邻 (KNN) 分 类 

from sklearn.neighbors import KNeighborsClassifier 
neigh-KNeighborsClassifier(n neighbors-3) 

neigh.fit(X, y) # 用 kNN 分 类 算法 训练 模型 
y_pred=neigh.predict (X_test) # 用 kNN 分 类 模型 预测 


2.1.2 无 监督 机 器 学 习 


无 监督 机 器 学 习 中 ,不 需要 对 收集 的 样本 进行 标注 ,也 不 需要 知道 学 习 的 结 
果 是 否 正确 。 无 监督 机 器 学 习 的 目的 是 对 原始 资料 进行 分 类 ,以 便 了 解 资 料 的 
内 部 结构 。 在 无 监督 机 器 学 习 中 ,最 典型 的 例子 就 是 聚 类 。 聚 类 的 目的 是 把 相 
似 的 东西 聚 在 一 起 ,而 我 们 并 不 关心 这 一 类 是 什么 。 图 2. 3 简单 展示 了 聚 类 问 
题 的 一 般 结 果 。 
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图 2.3 RHA R 


在 无 监督 机 器 学 习 算 法 中 ,常见 的 算法 有 下 均值 聚 类 、 主 成 分 分 析 等 。 此 
处 ,我 们 分 别 以 简单 的 示例 说 明 这 些 算法 的 使 用 方法 。 


from sklearn import datasets 
iris-datasets.load iris() 
X-iris.data 

y=iris.target 

#1. KMeans 聚 类 

from sklearn.cluster import KMeans 


est-KMeans (n clusters-8) 


est.fit(X) # 使 用 KMeans 算法 进行 聚 类 
print(est.labels ) # 输 出 类 别 的 标签 
#2. PCA 


from sklearn import decomposition 


pca=decomposition.PCA() 


pea. fit (Xx) # 使 用 BCA 算法 进行 主 成 分 分 析 
print (pca.explained_variance_) # 输 出 每 个 指标 的 解释 方差 ,以 便于 计 


2.1.3 半 监 督 机 器 学 习 


有 监督 机 器 学 习 的 样本 需要 有 标注 , 且 标 注 数据 质量 的 好 坏 直 接 影 响 机 器 
学 习 的 效果 (包括 回归 问题 和 分 类 问题 ) 。 无 监督 机 器 学 习 的 样本 不 需要 标注 ， 
但 这 类 学 习 算 法 只 能 用 于 了 解 样本 结构 ,而 不 能 用 于 预测 。 在 现实 问题 中 ,如 果 
样本 量 过 大 ,全 部 标注 是 件 非常 困难 的 事情 。 经 常 遇 到 只 有 部 分 标注 样本 ,但 需 
要 处 理 回归 或 分 类 问题 的 情景 ,此 时 就 需要 用 到 半 监 督 机 器 学 习 技术 ,图 2.4 所 
示 为 半 监 督 机 器 学 习 示 意图 。 
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图 2.4 半 监 督 机 器 学 习 示意 图 


所 谓 半 监 督 机 器 学 习 技 术 ,就 是 指 让 学 习 器 不 依赖 外 界 交互 .自动 地 利用 未 
标注 样本 来 提升 学 习性 能 的 一 类 算法 。 在 sklearn. semi_supervised 包 中 实现 了 
基于 标注 传播 (Label Propagation) 原理 的 半 监 督 机 器 学 习 算 法 。 此 处 ,我 们 以 
简单 的 示例 说 明 标 注 传播 算法 的 使 用 方法 。 


import numpy as np 

from sklearn import datasets 

from sklearn.semi supervised import label propagation 
rng-np.random.RandomState (0) 
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iris-datasets.load iris() 

X-iris.data[:, :2] 

y=iris.target 

y_30=np.copy(y) 

y 30[rng.rand (len(y))«0.3]--1 # 去 掉 已 有 的 标注 (随机 数 小 于 0.3 的 索引 ) 
y_50=np.copy(y) 

y 50[rng.rand(len(y))«0.5]--1 # 去 掉 已 有 的 标注 (随机 数 小 于 0.5 的 索引 ) 
1s30=label_propagation.LabelSpreading (kernel='knn', alpha=0.8) 


1s30.fit(X, y 30) # 训 练 模型 

1s50-1abel propagation.LabelSpreading (kernel='knn', alpha=0.8) 
1s50.fit(X, y 50) # 训练 模型 

predicted labels 1s30-1s30.transduction # 输 出 预测 的 标注 
predicted_labels_1s50=1s50.transduction_ # 输 出 预测 的 标注 


本 节 简 单 介 绍 了 三 类 机 器 学 习 技 术 的 基本 原理 ,分 别 是 有 监督 机 器 学 习 、 无 
监督 机 器 学 习 和 半 监 督 机 器 学 习 , 并 给 出 了 使 用 相关 算法 的 简单 示例 。 为 了 便于 
梳理 、 理 解 机 器 学 习 的 技术 体系 ,我 们 用 图 2. 5 所 示 的 分 类 图 给 本 节 作 一 个 总 结 。 
线性 回归 


逻辑 回归 
决策 树 回 归 
随机 森林 回归 


支持 向 量 机 回归 
逻辑 回归 分 类 


支持 向 量 机 分 类 


图 2.5 机 器 学 习 技 术 概述 


2.2 深度 学 习 


深度 学 习 是 机 器 学 习 的 一 个 重要 分 支 ,其 用 到 的 核心 技术 是 人 工 神经 网 络 。 
当 提 到 深度 学 习 的 概念 时 ,很 多 初学 者 会 问 : 一 个 机 器 学 习 模型 中 ,使 用 几 层 神 
经 网 络 才能 视 为 深度 学 习 模型 呢 ? 这 个 问题 看 似 有 道理 ,实际 上 并 没有 深入 理 
解 深度 学 习 的 基本 原理 ,而 是 将 深度 学 习 看 成 神经 网 络 层次 的 简单 肆 加 。 实 际 
上 ,深度 学 习 模 型 和 一 般 神 经 网 络 模型 相 比 在 原理 上 有 很 大 不 同 , 这 主要 表现 在 
特征 提取 和 处 理 的 顺序 与 方式 上 。 深 度 学 习 处 理 问 题 的 顺序 和 方式 跟 人 类 思考 
问题 的 方式 比较 接近 。 例 如 ,深度 学 习 在 图 像 分 类 问题 中 的 一 般 流程 是 首先 提 
取 图 片 的 基础 特征 一 一 图 片 像素 ,然后 将 图 片 像 素 特 征 输入 神经 网 络 的 第 一 层 ， 
并 提取 线条 特征 , 紧 接 着 将 线条 特征 输入 到 神经 网 络 的 第 二 层 , 提 取 图 片 中 物体 
的 简单 形状 特征 ,最 后 将 简单 形状 特征 输入 神经 网 络 的 第 三 层 , 提 取 图 片 中 物体 
的 复杂 形状 特征 。 然 后 再 将 提取 的 这 些 多 层 复杂 特征 进行 权重 学 习 , 并 将 得 到 
的 模型 用 于 图 片 分 类 预测 。 深 度 学 习 和 传统 机 器 学 习 方法 处 理 问题 的 一 般 流 
程 ,如 图 2.6 所 示 。 
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图 2.6 深度 学 习 和 传统 机 器 学 习 方法 处 理 问 题 的 一 般 流程 


显然 ,图 片 分 类 问题 深度 学 习 的 过 程 ,和 人 类 学 习 绘 画 的 过 程 比较 类 似 。 幼 
儿 学 习 绘 画 时 ,首先 认识 颜料 ,然后 学 习 简 笔画 ,最 后 学 习 复 杂 绘 画 并 涂 色 。 那 
么 ,什么 是 深度 学 习 呢 ? 简单 地 说 ,如 果 模 型 使 用 分 层 特征 学 习 一 一 首先 识别 较 
低级 别 的 特征 ,然后 建立 在 它们 之 上 以 识别 更 高 级 的 特征 (如 通过 卷 积 滤波 器 
等 ) ,那么 它 就 是 一 个 深度 学 习 模 型 。 如 果 没 有 分 层 特征 学 习 , 那 么 无 论 你 的 模 
型 有 多 少 层 ,都 不 是 真正 的 深度 学 习 模型 。 即 我 们 不 是 因为 深度 模型 (多 层 神 经 
网 络 模型 ) 而 将 其 称 为 深度 学 习 , 而 是 为 了 实现 层次 化 学 习 , 模 型 需要 深度 ,深度 
是 实现 分 层 特征 学 习 的 副产品 。 因 此 ,深度 学 习 是 使 用 多 层 神 经 网 络 技术 来 实 
现 分 层 特征 学 习 的 一 种 算法 。 

为 了 实现 深度 学 习 模 型 中 的 分 层 特征 学 习 , 我 们 需要 用 到 神经 网 络 的 模型 
结构 ,神经 网 络 最 基本 的 结构 单元 称 神经 元 ,这 是 由 生物 学 引出 的 一 个 概念 。 生 
物 学 中 一 个 神经 元 通常 具有 多 个 树 突 ,主要 用 来 接收 传人 的 信息 ;而 轴 突 只 有 一 
条 , 轴 突 尾 端 有 许多 轴 突 末梢 可 以 给 其 他 多 个 神经 元 传递 信息 ; 轴 突 末梢 和 其 他 
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神经 元 的 树 突 产 生 连 接 , 从 而 传递 信息 。 为 了 模拟 生物 神经 元 的 结构 和 信息 传 
递 方式 ,人 工 神 经 网 络 中 的 神经 元 结构 也 基本 类 似 , 如 图 2.7 所 示 。 


向 细胞 体 传递 的 脉冲 


图 2.7 生物 神经 元 与 人 工 神经 网 络 结构 对 比 图 


在 如 图 2.7 右 侧 所 示 的 人 工 神 经 元 中 ,输入 为 x1 ,zs，… ,x ,每 个 输入 的 权 
重 为 wi urs ,zw 将 这 些 输 入 的 加 权 求 和 作为 激活 函数 的 输入 ,并 计算 后 得 
到 该 神经 元 的 输出 , 即 该 神经 元 的 输出 为 y = S Cw X zi 十 wa X arg be bw, X 
Zu)。 显 然 , 各 输入 节点 的 加 权 求 和 是 一 个 线性 表达 式 ,为 处 理 非 线性 的 分 类 问 
题 ,激活 函数 通常 选择 非 线性 函数 ,这 样 训练 得 到 的 深度 学 习 模 型 就 可 以 处 理 非 
线性 分 类 问题 了 。 训 练 深度 学 习 模 型 的 过 程 ,就 是 计算 每 个 人 工 神 经 元 输入 的 
权重 的 过 程 。 

随 着 神经 网 络 层次 的 增多 和 每 个 神经 元 激活 函数 的 不 同 ,训练 得 到 的 神经 
网 络 模型 处 理 复杂 问题 的 能 力 一 般 也 会 逐步 提升 ,如 图 2. 8 所 示 。 
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图 2.8 神经 网 络 分 类 能 力 不 断 增强 


机 器 学 习 


此 处 ,我 们 以 一 个 具体 的 实例 来 说 明 深度 神经 网 络 的 构建 .训练 和 验证 过 T 
程 。 为 了 进行 深度 学 习 , 本 书 采用 Keras 深度 学 习 库 (关于 Keras 的 安装 .配置 ”说 
与 用 法 请 见 本 书 第 3 章 的 详细 介绍 ) 。 


# 需要 指出 的 是 ,该 深度 学 习 代 码 只 能 在 Linux 平台 下 并 安装 Keras 深度 学 习 库 后 ， 
才能 正常 运行 。 详 细 的 安装 与 配置 方法 ,请 见 3.2 节 中 的 详细 介绍 。 
# 载 人 所 需要 的 包 


import pandas as pd 


import numpy as np 

from keras.utils import to categorical 

import matplotlib.pyplot as plt 

$matplotlib inline 

# 获 取 测 试 数据 ,包括 训练 集 和 测试 集 

(train X,train Y), (test_x, test_Y)=fashion mnist.load_data()# 使 用 
Keras Py Pi ph a Fa Edi 

# 由 于 数据 量 较 大 、 运 行 时 间 较 长 ,读者 也 可 在 开源 平台 GitHub 自行 下 载 数据 集 ,网 址 
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为 : https://github.com/zalandoresearch/fashion-mnist, 如 图 2.9 Ero, 


单 击 Download 即 可 下 载 程序 运行 所 需 数据 集 。 d 
Get the Data 
Many ML libraries already include Fashion-MNIST data/API, give it a try! 
(ou can use direct links to download the dataset. The data is stored in the same format as the original MNIST data. 
Name Content Examples Size Link MD5 Checksum 
train-images~idx3- training set 26 
)/ load 8d4fb’ 8d591d4c3dfef9ec88bfed 
p images 60000 | anytos | [Eees]| RES 
train-labels-idki- training set 29 
à I 25c81989df183df01b3eBa0aad5dffbe. 
E labels Em DEN 
t1ek-ii -idx3- 43 
aaa test set images 10,000 Download bef4ecab320f06d8554e26380940ec79. 
ubyte.gz MBytes 
ES test set labels — 10,000 Sl Download| ^ bbseecfdadsci6e7a12a480ee83cd310 
ubyte.gz KBytes 


fl 2.9 Fashion-MNIST 训练 样本 


print('Training data shape : ', train X.shape, train_Y. shape) #4 tH illl 
练 样本 的 结构 ,有 60 000 个 训练 样本 ,每 个 样本 均 由 28 X 28 的 数组 构成 
print('Testing data shape : ', test X.shape, test Y.shape) # 输 出 测试 样 
本 的 结构 ,有 10 000 个 测试 样本 ,每 个 样本 均 由 28X28 的 数组 构成 

# 获 取 训 练 样本 的 类 别 

classes=np.unique(train_Y) 

nClasses=len(classes) 

print ('Total number of outputs : ', nClasses)# 输 出 类 别 ,共计 10 类 
print('Output classes : ', classes) # ih 4, 4 3H 0~9 的 数字 表示 ,如 
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# 2.2 所 示 。 
表 2.2 样本 的 类 别 

类 别 标记 描 述 类 别 标记 描 述 
0 T-shirt/top 5 Sandal 
1 Trouser 6 Shirt 
2 Pullover 7 Sneaker 
3 Dress 8 Bag 
4 Coat 9 Ankle boot 


# 查 看 训练 和 测试 样本 的 第 一 幅 图 ,如 图 2.10 所 示 
plt.figure(figsize=[5,5]) 

plt.subplot (121) 

plt.imshow(train X[0,:,:], cmap-'gray') 
plt.title("Class Number: ()".format(train Y[0])) 
plt.subplot (122) 

plt.imshow(test X[0,:,:], cmap='gray') 
plt.title("Class Number: {}".format (test Y[0])) 


Class Number: 9 Class Number: 9 


FAL 2.10 训练 和 测试 样本 的 第 一 幅 图 


# 训练 和 测试 样本 均 为 灰 度 图 ,将 它们 转化 为 28X 28X1 的 矩阵 存储 
train_X=train_X.reshape(-1, 28,28, 1) 

test_X=test_X.reshape(-1, 28,28, 1) 

train_X.shape, test_X.shape # 查 看 样本 转换 后 的 shape, 输 出 结果 为 ((60 000, 
28, 28, 1), (10 000, 28, 28, 1)) 

# 原 样本 中 存储 的 数据 类 型 为 整数 ,需要 转换 为 浮 点 数 ,并 做 归 一 化 处 理 

train X-train X.astype('float32') 

test X-test X.astype('float32') 


train X-train X / 255. 


机 器 学 习 


test_X=test_X / 255. 

# 由 于 机 器 学 习 算 法 不 能 直接 处 理 元 类 别 (0~ 9) ,因此 需要 进行 1 位 热 编码 (one- hot 
enconding). 。 例 如 类 别 9 的 1 位 热 编码 为 [0000000010], 即 用 一 个 布尔 型 数 
组 ,只 有 第 9 位 为 1, 其 他 都 为 0。 


train Y one hot-to categorical (train Y) 


test Y one hot-to categorical(test Y) 

# 查 看 将 类 别 (0~ 9) 进行 1 位 热 编码 转换 前 后 的 变化 

print('Original label:', train Y[0]) 

print('After conversion to one-hot:', train Y one hot[0]) 

# 将 训练 样本 集 分 为 训练 集 和 测试 集 ,训练 集 用 于 训练 模型 ,测试 集 用 于 检验 模型 。 此 
处 将 原样 本 集中 的 80s 用 于 训练 模型 ,20s 用 于 测试 模型 

from sklearn.model selection import train test split 

train X,valid X,train label,valid label-train test split(train X, 
train Y one hot, test size-0.2, random state-13) 

# 检查 训练 集 和 测试 集 的 shape 

train X.shape,valid X.shape,train label.shape,valid label.shape 

3 加 载 构建 深度 学 习 模 型 所 需要 的 包 

import keras 

from keras.models import Sequential,Input,Model 

from keras.layers import Dense, Dropout, Flatten 

from keras.layers import Conv2D, MaxPooling2D 

from keras.layers.normalization import BatchNormalization 

from keras.layers.advanced_activations import LeakyReLU 

batch size-64 # HEAT PE FERRI RE batch 包含 的 样本 数 ,训练 时 一 个 batch 的 
样本 会 被 计算 一 次 梯度 下 降 , 使 目标 函数 优化 一 步 

epochs=20 # 模 型 训练 次 数 

num_classes=10# 使 用 Keras 中 的 序列 模型 (Sequential) 构 建 卷 积 神经 网 络 
fashion_model=Sequential () 

fashion model.add (Conv2D (32, kernel size- (3,3), activation='linear', 
input shape- (28,28,1),padding- 'same'))# 向 序列 模型 中 添加 第 一 层 二 维 卷 积 
层 , 卷 积 核 的 数目 为 32 (输出 的 维度 为 32 维 ), 卷 积 核 的 大 小 为 3X 3, 激活 函数 为 
linear, 输 入 数据 的 shape 为 28X 28X 1, same 代表 保留 边界 处 的 卷 积 结果 
fashion model.add (LeakyReLU (alpha=0.1)) # 为 第 1 层 卷 积 神经 网 络 的 输出 添 
加 激活 函数 

fashion model.add (MaxPooling2D((2, 2),padding='same') ) # 二 维 最 大 值 池 
化 ,使 图 片 在 两 个 维度 上 均 变 为 原 长 的 一 半 

fashion_model.add(Conv2D(64, (3, 3), activation-'linear',padding- 
‘same')) # 向 序列 模型 中 添加 第 2 层 二 维 卷 积 层 , 卷 积 核 的 数目 为 64 (输出 的 维度 为 
64 HE) , 卷 积 核 的 大 小 为 3X3 

fashion model.add (LeakyReLU (alpha=0.1)) # 激 活 函 数 

fashion model.add (MaxPooling2D (pool size- (2, 2),padding- 'same')) 


# 二 维 最 大 值 池 化 ,使 图 片 在 两 个 维度 上 均 变 为 原 长 的 一 半 
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fashion model.add(Conv2D(128, (3, 3), activation='linear',padding=' 
same')) # 向 序列 模型 中 添加 第 3 层 二 维 卷 积 层 , 卷 积 核 的 数目 为 128 (输出 的 维度 为 
128 HE) , 卷 积 核 的 大 小 为 3X3 

fashion_model.add(LeakyReLU(alpha=0.1)) # 激 活 函 数 

fashion model.add (MaxPooling2D (pool size- (2, 2),padding='same')) 
# 二 维 最 大 值 池 化 ,使 图 片 在 两 个 维度 上 均 变 为 原 长 的 一 半 

fashion model.add (Flatten() )# 用 于 将 输入 “ 压 平 ”, 即 把 多 维 的 输入 一 维 化 ,用 
于 卷 积 层 到 全 连接 层 的 过 渡 

fashion model.add (Dense (128, activation='1linear'))# 全 连接 层 , 激活 函 
数 为 linear 

fashion_model.add(LeakyReLU(alpha=0.1)) # 激 活 函 数 

fashion model.add (Dense (num classes, activation- 'softmax'))# 全 连接 
层 , 使 得 输出 数据 维 数 跟 样 本 类 别 维 数 相 同 (此 处 为 num_classes=10) 


fashion model.compile(loss-keras.losses.categorical crossentropy, 


optimizer-keras.optimizers.Adam(),metrics- ['accuracy'])# 编 译 模型 ， 
深度 学 习 网 络 构建 完成 后 ,需要 编译 后 才能 运行 
fashion_model.summary()# 查 看 深度 学 习 模 型 的 结构 ,如 图 2.11 所 示 。 


Layer (type) Output Shape Param # 
conv2d_1 (Conv2D) (None, 28, 28, 32) 320 
leaky re lu 1 (LeakyReLU) (None, 28, 28, 32) e 

max pooling2d 1 (MaxPooling2 (None, 14, 14, 32) e 
leaky re lu 2 (LeakyReLU) (None, 14, 14, 64) e 

max pooling2d 2 (MaxPooling2 (None, 7, 7, 64) e 
conv2d 3 (Conv2D) (None, 7, 7, 128) 73856 
leaky re lu 3 (LeakyReLU) (None, 7, 7, 128) e 

max pooling2d 3 (MaxPooling2 (None, 4, 4, 128) e 
flatten 1 (Flatten) (None, 2048) e 
dense 1 (Dense) (None, 128) 262272 
leaky re lu 4 (LeakyReLU) (None, 128) e 
dense 2 (Dense) (None, 10) 1290 


Total params: 356,234 
Trainable params: 356,234 
Non-trainable params: 8 


图 2.11 深度 学 习 模 型 的 结构 


fashion train-fashion model.fit(train X,train label,batch size- 
batch size,epochs-epochs,verbose-1,validation data- (valid X, 
valid label) )# 训 练 神 经 网 络 模型 ,共计 训练 20 次 


test eval-fashion model.evaluate(test X, test Y one hot, verbose- 


assez] 


0)# 计 算 模型 误差 

print('Test loss:', test eval[0] )# 输 出 测试 误差 结果 丢失 率 Loss (44.462) 
print('Test accuracy:', test_eval[1]) # 输 出 测试 准确 率 accuracy (91.54%) 
# 绘 制 准确 率 和 丢失 率 曲线 ,以 判断 模型 是 否 过 拟 合 , 如 图 2.12 所 示 。 


Training and validation loss Training and validation accuracy 
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图 2.12 训练 和 测试 样本 的 loss/accuracy 曲线 


+E 2.12 中 横 坐 标 表示 训练 次 数 , 从 中 可 以 看 出 随 着 训练 次 数 的 不 断 增 加 训练 样本 的 
丢失 率 不 断 减少 ,准确 率 不 断 提高 ,而 测试 样本 却 出 现 了 相反 的 结果 。 这 表明 ,训练 得 
到 的 模型 出 现 了 过 拟 合 现象 。 

accuracy-fashion train.history['acc'] 

val accuracy-fashion train.history['val acc'] 

loss-fashion train.history[ 'loss'] 

val loss-fashion train.history['val loss'] 

epochs-range (len (accuracy)) 

plt.plot (epochs, accuracy, 'bo', label='Training accuracy') 
plt.plot (epochs, val accuracy, 'b', label-'Validation accuracy") 
plt.title('Training and validation accuracy!) 

plt.legend() 

plt.figure() 

plt.plot (epochs, loss, 'bo', label='Training loss') 

plt.plot (epochs, val_loss, 'b', label='Validation loss') 
plt.title('Training and validation loss') 

plt.legend() 

plt.show() 

# 为 了 防止 模型 出 现 过 拟 合 现象 ,我 们 需要 在 神经 网 络 的 每 一 层 后 添加 Dropout Jz, 
这 样 即 可 有 效 降低 过 拟 合 现象 。 

batch size=64 

epochs=20 

num classes=10 

fashion_model=Sequential () 

fashion model.add (Conv2D (32, kernel size- (3,3), activation='linear', 


padding-'same',input shape- (28,28,1))) 
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fashion model.add(LeakyReLU(alpha-0.1)) 

fashion model.add(MaxPooling2D((2, 2),padding='same') ) 

fashion model.add(Dropout (0.25) )# 添 加 Dropout 层 ,使 得 每 次 训练 模型 更 新 
参数 时 , 按 25s 的 概率 随机 断 开 输入 神经 元 

fashion model.add(Conv2D(64, (3, 3), activation='linear',padding=' 
same')) 

fashion_model.add(LeakyReLU (alpha=0.1) ) 
fashion_model.add(MaxPooling2D (pool size- (2, 2),padding='same') ) 
fashion model.add(Dropout (0.25) )# 添 加 Dropout 层 , 断 开 输入 神经 元 的 概率 
为 25% 

fashion_model.add(Conv2D(128, (3, 3), activation='linear',padding=' 
same')) 

fashion model.add(LeakyReLU(alpha-0.1)) 

fashion model.add(MaxPooling2D (pool size- (2, 2),padding='same') ) 
fashion model.add(Dropout(0.4)) # 添 加 Dropout 层 , 断 开 输 入 神经 元 的 概率 
为 40% 

fashion model.add(Flatten()) 

fashion model.add(Dense (128, activation-'linear')) 

fashion model .add (LeakyReLU (alpha-0.1)) 

fashion model.add(Dropout (0.3) )# 添 加 Dropout 层 , 断 开 输 入 神经 元 的 概率 为 
30% 

fashion_model.add(Dense (num_classes, activation-'softmax')) 
fashion_model.summary()# 查 看 模型 结构 

fashion_model.compile (loss=keras.losses.categorical_crossentropy, 
optimizer-keras.optimizers.Adam(),metrics- ['accuracy']) #4 PE HY 
fashion train dropout-fashion model.fit(train X,train label,batch 
.Size-batch size,epochs-epochs,verbose-1l,validation data- (valid 
X, valid label) )# 训 练 模型 ,参数 保持 不 变 
fashion_model.save("fashion_model_dropout .h5py")# 保 存 模型 

test eval-fashion model.evaluate (test_X, test_Y_one_hot, verbose= 
1) # 计算 模型 误差 

print('Test loss:', test eval[0]) # 输 出 测试 误差 结果 丢失 率 loss (22.74%) 
print ("Test accuracy:', test eval[1]) # 输 出 测试 准确 率 accuracy (91.95%) 

# 输 出 添加 Dropout 层 后 ,训练 和 测试 样本 的 10ss/accuracy 曲线 ,如 图 2.13 所 示 。 


从 图 中 我 们 可 以 看 出 随 着 训练 次 数 的 增加 ,训练 集 和 测试 集 的 准确 率 同步 增加 ,丢失 率 
同步 减少 。 因 此 模型 分 类 效果 很 好 , 且 没有 出 现 过 拟 合 现象 

accuracy-fashion train dropout.history['acc'] 

val accuracy-fashion train dropout.history['val acc'] 
loss-fashion train dropout.history['loss'] 

val loss-fashion train dropout.history['val loss'] 

epochs-range (len (accuracy)) 


plt.plot (epochs, accuracy, 'bo', label='Training accuracy') 
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图 2.13 添加 Dropout 层 后 训练 和 测试 样本 的 loss/accuracy 曲线 


plt.plot (epochs, val_accuracy, 'b', label='Validation accuracy') 
plt.title('Training and validation accuracy') 

plt.legend() 

plt.figure() 


plt.plot (epochs, loss, 'bo', label='Training loss') 


plt.plot (epochs, val loss, 'b', label='Validation loss') 


plt.title('Training and validation loss') 


plt.legend() 
plt.show() 
predicted classes=fashion model.predict (test_X)# 用 训练 得 到 的 模型 ,对 
测试 样本 做 分 类 预测 
predicted classes-np.argmax(np.round(predicted classes),axis-1) 
predicted classes.shape, test_Y.shape#Jtit Mi f 10 000 个 样本 的 分 类 情况 
correct=np.where (predicted_classes==test_Y) [0]# 统计 分 类 正确 的 情况 
print("Found $d correct labels" %len (correct))# 和 输出 分 类 正确 的 个 数 
(9 165 个 ) 
# 绘 出 9 个 分 类 正确 的 图 片 ,如 图 2.14 所 示 。 
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图 2.14 分 类 正确 的 图 片 


for i, correct in enumerate(correct[:9]): 
plt.subplot (3,3,i+1) 
plt.imshow (test X [correct]. reshape (28, 28), cmap = ' gray ', 
interpolation-'none') 
plt.title (" Predicted ( }, Class ( )". format (predicted classes 
[correct], test Y[correct])) 
plt.tight layout() 

incorrect-np.where (predicted classes! -test Y) [0] # 统 计 分 类 错误 的 情况 
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print ("Found $d incorrect labels" %len(incorrect)) # 输 出 分 类 错误 的 个 数 
(835 个 ) 
# 绘 出 9 个 分 类 错误 的 图 片 , 如 图 2.15 所 示 。 
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图 2.15 分 类 错误 的 图 片 


Predi 
0 


20 
0 25 


fori, incorrect in enumerate (incorrect[:9]): 
plt.subplot (3,3,i+1) 
plt.imshow (test X [incorrect]. reshape (28, 28), cmap- ' gray ', 
interpolation='none') 
plt.title("Predicted{},Class{}".format (predicted_classes 
[incorrect], test Y[incorrect])) 
plt.tight layout () 
# 输 出 分 类 预测 汇总 情况 ,如 图 2.16 所 示 。 
from sklearn.metrics import classification_report 
target names- ["Class {}".format(i) for i in range (num classes)] 
print(classification report (test Y,predicted classes,target names 


-target names)) 


precision recall fi-score support 

Class 8 8.78 9.90 8.84 1006 
Class 1 9.99 8.98 8.99 1000 
Class 2 8.96 8.86 8.88 1000 
Class 3 8.91 8.92 8.92 1000 
Class 4 8.86 8.89 8.88 1000 
Class 5 8.98 8.99 8.99 1000 
Class 6 0.81 8.70 8.75 1000 
Class 7 0.97 8.97 8.97 1000 
Class 8 9.99 8.97 8.98 1000 
Class 9 80.97 0.97 9.97 1000 
avg / total 8.92 8.92 9.92 10000 


K 2.16 分 类 预测 汇总 情况 


2.3 ”类别 不 均衡 问题 的 解决 方案 及 Python 源 代码 


本 章 前 述 的 机 器 学 习 任 务 中 都 有 一 个 共同 的 基本 假设 , 即 不 同类 别 的 训练 
样本 数量 相当 。 如 果 不 同类 别 的 训练 样本 数量 差别 不 大 ,通常 影响 较 小 ,但 如 果 
差别 很 大 , 则 会 对 学 习 过 程 造成 困扰 。 例 如 在 1 000 个 训练 样本 中 ,有 998 个 正 
常 ,只 有 2 个 违约 ,那么 学 习 方法 只 需要 返回 一 个 永远 将 新 样本 预测 为 正常 的 学 
习 器 ,就 能 达到 99. 8% 的 精度 。 然 而 ,这 样 的 学 习 器 往往 没有 价值 ,因为 它 不 能 
预测 出 任何 违约 样本 。 这 种 样本 总 体 中 类 别 差 距 较 大 的 情况 , 称 为 类 别 不 均衡 
问题 。 

简单 的 线性 分 类 器 可 很 容易 解释 这 种 现象 。 在 我 们 用 y meo 分 类 模 
型 对 新 样本 x 进行 分 类 时 ,实际 上 是 用 预测 出 的 y 值 与 一 个 阔 值 进行 比较 ,如 
通常 在 y>0. 5 时 判别 为 违约 样本 ,否则 为 正常 样本 。y 实际 上 表达 了 违约 的 可 
能 性 ,比率 ji 一 则 反映 了 违约 可 能 性 与 正常 可 能 性 的 比值 , 阔 值 设置 为 0.5 恰 
表明 分 类 咽 认 为 正常 样本 和 违约 样本 的 可 能 性 相同 , 即 分 类 咒 决 策 规则 为 

如 果 T > 1， 则 预测 为 违约 (25.1) 

然而 , 当 训练 集中 正常 .违约 的 样本 量 不 同时 ,我 们 令 mt 表示 正常 的 样本 

量 ,m” 表示 违约 的 样本 量 , 则 观测 比率 为 生 。 由 于 我 们 通常 假设 训练 集 是 样本 

总 体 的 无 偏 估计 ,因此 该 观测 比率 就 代表 了 真实 比率 。 于 是 ,只 要 分 类 器 的 预测 
概率 大 于 观测 比率 就 应 该 判定 为 违约 , 即 

MR > Te 则 预测 为 违约 (2.2) 

但 是 ,我 们 的 分 类 器 是 基于 式 (2. 1) 进 行 决策 的 。 因 此 ,需要 对 其 预测 值 进 
行 调整 ,使 其 在 基于 式 (2. 1) 决 策 时 ,实际 是 在 执行 式 (2.2) 的 决策 。 要 做 到 这 一 


点 很 容易 ,只 需 令 
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这 就 是 处 理 类 别 不 均衡 学 习 的 一 个 基本 策略 一 一 再 缩放 ”(rescaling) , 亦 称 “再 
平衡 "(rebalance)。 

再 缩放 的 思想 虽 简 单 ,但 实际 操作 却 并 不 平凡 ,主要 是 因为 “训练 集 是 真实 
样本 总 体 的 无 偏 估计 ”这 个 假设 不 成 立 了 ,也 就 是 说 ,我 们 未 必 能 有 效 地 基于 训 
练 集 观测 比率 来 推断 出 真实 的 正常 与 违约 的 比率 。 现 有 技术 上 大 体 有 三 类 做 
法 : 第 一 类 是 直接 对 训练 集中 的 正常 样本 进行 “ 欠 采 样 ”(undersampling), 即 去 
除 一 些 正 常 样本 使 得 正常 .违约 样本 数量 接近 ,然后 再 进行 机 器 学 习 ; 第 二 类 是 
对 训练 集中 的 违约 样本 进行 “过 采样 "(oversampling), 即 增加 一 些 违约 样本 使 
得 正常 违约 样本 数量 接近 ,然后 再 进行 机 器 学 习 ; 第 三 类 是 直接 基于 原始 训练 
集 进 行 机 器 学 习 , 但 在 用 训练 好 的 分 类 器 进行 预测 时 ,将 式 (2.3) 租 和 决策 过 程 
中 , 称 为 “ 阅 值 移动 ”*(threshold-moving)。 

欠 采 样 法 的 时 间 开 销 通 常 远 小 于 过 采样 法 ,因为 前 者 丢弃 了 很 多 正常 的 样 
本 ,使 得 分 类 器 训练 集 远 小 于 初始 训练 集 ; 而 过 采样 法 增加 了 很 多 违约 样本 ,其 
训练 集 大 于 初始 训练 集 。 需 要 注意 的 是 ,过 采样 法 不 能 简单 地 对 初始 违约 样本 
进行 重复 采样 ,否则 会 导致 严重 的 过 拟 合 。 过 采样 法 的 代表 性 算法 SMOTE 是 
通过 对 训练 集中 的 违约 样本 进行 插值 来 产生 额外 的 违约 样本 。 同 样 , 欠 采 样 法 
也 不 能 随意 丢弃 正常 样本 ,因为 这 样 可 能 会 丢失 一 些 重要 信息 。 欠 采样 法 的 代 
表 性 算法 EasyEnsemble 是 利用 集成 学 习 机 制 ,将 正常 样本 划分 为 若干 个 集合 
供 不 同 学 习 器 使 用 ,这 样 对 每 个 学 习 器 都 进行 了 从 采样 ,但 在 全 局 来 看 却 不 会 丢 
失重 要 信息 。 

Python 语言 中 提供 了 处 理 不 均衡 样本 的 包 
imbalanced 一 learn, 在 使 用 前 需要 首先 安装 它 ， 
安装 步骤 如 下 所 示 。 

第 一 步 , 打开 Anaconda Prompt。 单 击 
Windows 开始 按钮 ,在 程序 中 找到 Anaconda 文 
件 夹 ,如 图 2.17 所 示 , 单 击 Anaconda Prompt 即 
可 打开 。 图 2.17 打开 Anaconda Prompt 

在 弹出 的 Anaconda 命令 提示 符 窗 口 ,输入 
“conda install -c glemaitre imbalanced-learn”, 并 按 回 车 键 ,然后 单 击 y 并 再 次 
按 回 车 , 即 可 安装 imbalanced-learn 包 , 如 图 2.18 所 示 。 

安装 完成 后 , 即 可 用 该 包 处 理 类 别 不 均衡 样本 的 机 器 学 习 问 题 。 此 处 ,我们 
给 出 如 下 的 应 用 示例 ,以 演示 过 采样 、 欠 采样 等 方法 的 处 理 步骤 。 


[7 Anaconda Prompt 


Jupyter Notebook 


from sklearn.datasets import make classification 


X, y= make classification (n samples = 5000, n features-2, n 
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.18 安装 imbalanced-learn 包 : 
informative-2, i 
1 
n_redundant=0, n_repeated=0, n classes-3,n clusters per class-1, 1 
weights- [0.01, 0.05, 0.94],class sep-0.8, random state-0) 点 


# 产生 5000 个 样本 ,共计 有 0/1/2 三 个 类 别 , 用 于 处 理 机 器 学 习 的 分 类 问题 
# 过 采样 算 
#1. 随机 过 采样 
from imblearn.over sampling import RandomOverSampler 


ros=RandomOverSampler (random state=0) # 随 机 过 采样 


X resampled, y resampled-ros.fit sample (X, y) 
from collections import Counter 
print(sorted(Counter(y resampled) .items () ) ) 
# 为 每 个 类 别 分 别 产生 相同 的 样本 ,数量 为 原始 类 别 中 最 大 的 数量 
#2. SMOTE 法 过 采样 


from imblearn.over_sampling import SMOTE, ADASYN 


X resampled, y resampled-SMOTE().fit sample(X, y) 
print (sorted (Counter (y_resampled) .items ())) # 输 出 过 采样 后 的 样本 维 
度 , 并 按 类 别 排序 


#3. ADASYN 法 过 采样 


X resampled, y resampled-ADASYN().fit sample(X, y) “# 使 用 ADRASYN 方法 六 
print(sorted(Counter(y resampled).items())) # 输 出 样 后 的 样本 维 


度 , 并 按 类 别 排序 


# 欠 采样 算法 -EasyEnsemble 

from collections import Counter 

from imblearn.ensemble import EasyEnsemble 
ee=EasyEnsemble(random_state=0, n_subsets=10) 


X resampled, y_resampled=ee.fit_sample(X, y) * fH EasyEnsemble 
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print (X_resampled.shape) # 输 出 欠 采 样 后 的 样本 维度 
print (sorted (Counter (y resampled[0]).items())) # 输 出 欠 采 样 后 的 样本 维 
度 ,并 按 类 别 排序 


# 阅 值 移动 算法 
from imblearn.under sampling import InstanceHardnessThreshold 
iht=InstanceHardnessThreshold (return indices=True) 

# 初始 化 阔 值 移动 算法 处 理 类 别 不 均衡 样本 ,并 输出 样本 的 索引 
X res, y res, idx res-iht.fit _ sample (X，Y) 3:8 FH BR (ECTS 271 5 1s 


TensorFlow 用 Keras 做 深度 学 习 


流行 的 深度 学 习 框 架 很 多 ,如 TensorFlow, Caffe 和 Theano 等 。 但 这 些 框 
ec 专业 人 士 的 ,用 这 些 框 架 做 深度 学 习 需 要 非常 了 解 
底层 逻辑 , 且 需 要 编写 大 量 的 代码 才能 实现 。 这 对 非 计 算 机 编程 相关 专业 科班 
出 身 的 金融 从 业 人 员 来 说 ,是 个 很 大 的 挑战 , 且 短 时 间 内 很 难 弥补 。 本 书 介绍 的 

度 学 习 库 Keras 是 一 个 基于 TensorFlow 的 API, 它 能 够 使 我 们 快速 实现 金融 
模型 的 思维 , 且 易 于 编程 实现 。 


3.1 Keras 简介 


Keras 是 由 谷歌 软件 工程 师 Francois Chollet 开发 的 .基于 TensorFlow 的 
深度 学 习 库 ,具有 较为 直观 的 API。 目 前 ,Keras 库 已 经 成 为 TensorFlow 的 默 
ik API, Keras 库 强 调 极 简 主 义 一 一 只 需要 几 行 代码 就 能 构建 一 个 神经 网 络 ， 
其 设计 原则 如 下 。 

1. 用 户 友好 

Keras 是 神经 网 络 的 高 层 API, 它 充分 考虑 用 户 的 使 用 体验 ,在 极 大 减少 用 
户 工作 量 的 前 提 下 ,使 用 户 非常 方便 地 构建 不 同 层次 深度 的 定制 化 神经 网 络 
模型 。 

2. 模块 化 

使 用 Keras 构建 深度 学 习 模 型 时 ,可 将 该 模型 理解 为 一 个 多 层 的 序列 或 数 
据 的 运算 图 ,这 些 完全 可 配置 的 模块 可 以 用 最 少 的 代价 自由 组 合 在 一 起 。 具 体 


而 言 , 网 络 层 、 损 失 函 数 、 优 化 器 、 初 始 化 策略 、 激 活 函 数 、 正 则 化 方法 等 都 是 独立 
的 模块 ,可 以 使 用 它们 来 构建 自己 的 模型 。 


3. 易 扩展 性 


添加 新 模块 (或 网 络 层 ,神经 元 等 ) 非 常 容易 ,只 需要 仿照 现 有 的 模块 编写 新 
的 类 或 函数 即 可 。 创 建新 模块 的 便利 性 使 得 Keras 更 适合 于 先进 的 研究 工作 。 
为 了 说 明 使 用 Keras 进行 深度 学 习 模 型 开发 的 便利 性 ,此 处 以 一 个 简单 的 


示例 说 明 如 何 使 用 Keras 库 做 深度 学 习 模 型 开发 。 该 示例 以 上 证 50 成 分 股 的 
收盘 价 来 训练 模型 ,并 使 用 训练 得 到 的 深度 学 习 模 型 计算 上 证 50 指数 的 预测 收 
盘 价 ,最 后 绘图 表示 上 证 50 实际 收盘 价 和 预测 收盘 价 的 曲线 ,示例 代码 如 下 
所 示 。 
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import pandas as pd 
import numpy as np 
from keras .models import Sequential 
from keras.layers.core import Dense, Activation,Dropout 
from sklearn.preprocessing import Normalizer, StandardScaler 
import matplotlib.pyplot as plt 
from WindPy import w 
THERA ICRA FF AE RE E ee 
# 获 取 上 证 50 成 分 股 , 并 获取 这 些 股票 从 2010 年 1 月 1 日 到 
#2017 年 12 月 31 日 所 有 交易 日 的 收盘 价 和 在 此 期 间 上 证 50 
# 的 收盘 价 
* 目标 : 用 上 证 50 成 分 股 的 收盘 价 预测 上 证 50 指数 的 收盘 价 
w.start()# 本 段 代 码 需 要 安装 Wind 资讯 金融 终端 和 windPy 插件 才能 运行 
wsetdata=w.wset ("sectorconstituent","date=2018- 02-06; sectorid- 
1000000087000000") # 获 取 上 证 50 成 分 股 的 证 券 代 码 
code_list=wsetdata.Data[1] 
code_list .append('000016.SH') 
codes-code list[0] 
for code in code list[1:]: 

codes=codes + ',' + code 
w_data=w.wsd (codes, "close", "2010-01-01", "2017-12-31", "Fill= 
Previous") # 获 取 所 有 成 分 股 和 上 证 50 指数 的 收盘 价 
close data=pd.DataFrame (w_data.Data, index=w_data.Codes, columns=w_ 
data.Times) 
close data-close data.T 
all data-close data.dropna (axis-1,how-'any') # 剔 除 存在 nan 的 列 
all_data.index.name="Date" 
all data.to csv("sz50 all data.csv") # 将 获取 的 数据 集 写 入 csv 文件 
THEE BRC IF AE ORC E HHE 
df-pd.read csv('sz50 all data.csv', index_col='Date') 
df.index-pd.to datetime (df.index) 
df-df.resample('W-MON').last() 
df-df.dropna (axis-0,how- 'any') # 剔 除 存 在 nan 的 行 
stox=list (df.columns) 


stox.remove ('000016.SH') 


基于 TensorFlow 用 Keras 做 深度 学 习 


ind='000016.SH' 
df['ret']=d£['000016.SH'].pct_change().fillna(0.1) #it# Lik 50 指数 
当日 收盘 价 相对 前 一 收盘 价 的 涨 跌 百分比 ,第 一 个 值 为 0.1 
df.loc[:, 'new ret']-df.apply(lambda r: 0.1 if r['ret'] < -0.08 else 
r['ret'], axis=1) 
df['new index']-df.loc[df.index[0], '000016.SH'] 
for i in range(len(df.index)): 
if Os 
df.loc[df.index[i], 'new index']-df.loc[df.index[i-1], 
'new index']* (1.0+df.loc[df.index[i], 'new ret']) 
# 将 所 有 数据 ,按照 列 标准 化 
en-StandardScaler() 
df['000016.SH']-en.fit transform(np.array (df['000016.SH']).reshape 
(-1,1)) 
for s in stox: 
enl=StandardScaler () 
df[s]=enl.fit_transform(np.array(df[s]).reshape(-1,1)) 
dff 'new_index ']=en.transform (np.array (df [' new_index ']).reshape 
(-1,1)) 
train-df[df.index < pd.to datetime('29-12-2017')] 
def create dataset index (d£): 
dataX- [] 
dataY-[] 
fori in df.index: 
x-df.loc[i, stox].as matrix() 
dataX.append (x) 
y-df.loc[i, '000016.SH'] 
dataY.append(y) 
return np.array (dataX), np.array (dataY) 
# 训 练 样本 中 ， train_x 为 所 有 成 分 股 ， train_y 为 上 证 50 指数 
train x, train y-create dataset index(train) 
# 构 建 四 层 顺 序 神 经 网 络 模型 
model=Sequential () 
model.add (Dense (output_dim=20, input dim-36)) # 第 一 层 ,36 个 输入 、 
20 个 输出 节点 
model.add(Activation('tanh')) 
model.add (Dropout (0.1)) 
model.add (Dense (output dim=10, input dim-20)) # 第 二 层 ,20 个 输入 、 
10 个 输出 节点 
model.add(Activation('tanh')) 
model.add (Dropout (0.1)) 
model.add (Dense (output_dim=5, input dim-10)) # 第 三 层 ,10 个 输入 、 
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5 个 输出 节点 
model.add (Activation('tanh')) 
model.add(Dropout (0.1)) 
model.add (Dense (output dim=1, input dim=5)) # 第 四 层 ,5 个 输入 、 
1 个 输出 节点 


model.compile(loss-'mean squared error', optimizer='rmsprop') # 编 译 
模型 
model.fit(train_x, train_y, nb epoch=2000, batch_size=50, verbose= 
1)# 拟 合 模型 
# 使 用 模型 计算 上 证 50 指数 收盘 价 
df['pred']=0.0 
df-df[df.index < pd.to datetime('29-12-2017')] 
fori indf.index: 
x-df.loc[i, stox].as matrix() 
df.loc[i, 'pred']=model.predict (x.reshape (1,36)) [0,0] # 使 用 训练 
出 的 模型 ,计算 上 证 50 指数 收盘 价 
# 将 实际 上 证 50 指数 和 按 预 测 模型 计算 的 指数 ,做 逆 运 算 、 变 为 实际 收盘 价 
df['pred']-en.inverse transform(df['pred']) 
df['000016.SH']-en.inverse transform(df['000016.SH']) 
df.to hdf('DeepLearning-sz50.h5', 'Deep Portfolio') 
plt.plot (df['pred'], 'r', label='pred') 
plt.plot (df['000016.SH'], 'b', label-'index') 
plt.legend() 
plt.show() # 输 出 实际 指数 与 预测 指数 比较 图 


上 证 50 实际 指数 用 蓝 色 表示 ,预测 指数 用 红色 表示 ,如 图 3. 1 所 示 。 可 见 ， 


深度 学 习 模 型 得 到 的 预测 结果 跟 实际 结果 非常 接近 , 即 模型 的 拟 合 度 较 好 。 
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3.2 Keras 安装 与 配置 


由 于 深度 学 习 的 框架 基本 都 是 基于 Linux 平台 开发 的 ,因此 在 Windows 平 
台 下 安装 深度 学 习 库 一 般 比 较 困 难 。 此 处 ,我 们 介绍 一 种 在 Windows 平台 下 安 
装 虚拟 机 进行 深度 学 习 开 发 的 方法 。 

首先 ,安装 虚拟 机 软件 VirtualBox。 访 问 VirtualBox 首页 (https://www. 
virtualbox. org/) ,并 下 载 、 安 装 VirtualBox, 如 图 3. 2 所 示 。 


O [E ll htps/wwvirtualboxorg/ P= âà G 国 Oradevm Vin... =] 


Welcome to VirtualBox.org! 


VirtualBox is a powerful x86 and AMD64/Intel64 virtualization product for enterprise as well as home use. Not only is 


About VirtualBox an extremely feature rich, high performance product for enterprise customers, it is also the only professional 
solution that is freely available as Open Source Software under the terms of the GNU General Public License (GPL) 

Screenshots version 2. See "About VirtualBox" for an introduction. 

Downloads Presently, VirtualBox runs on Windows, Linux, Macintosh, and Solaris hosts and supports a large number of guest 

Documentation operating systems including but not limited to Windows (NT 4.0, 2000, XP, Server 2003, Vista, Windows 7, Windows B, 


Windows 10), DOS/Windows 3.x, Linux (2.4, 2.6, 3.x and 4.x), Solaris and OpenSolaris, OS/2, and OpenBSD. 


VirtualBox is being actively developed with frequent releases and has an ever growing list of features, supported guest 
Technical docs operating systems and platforms it runs on. VirtualBox is a community effort backed by a dedicated company: 
ers everyone is encouraged to contribute while Oracle ensures the product always meets professional quality criteria. 


End-user docs 


图 3.2 VirtualBox 虚拟 机 首页 


安装 VirtualBox 时 ,按照 默认 选项 直接 安装 完成 即 可 。 

接 下 来 ,需要 下 载 Ubuntu Linux 操作 系统 的 镜像 文件 (iso)。 访 问 Ubuntu 
桌面 版 操作 的 首页 Chttps://www. ubuntu. com/download/desktop). 下 zk 
Ubuntu 16.04. 3 LTS, 如 图 3.3 所 示 。 下 载 得 到 的 Ubuntu Linux 系统 的 文件 
名 为 ubuntu-16. 04. 3-desktop-amd64. iso。 


图 nttps//www ubuntucom/download/desktop. JD ~ i Canonical Group Ltd [GB] © @ Download Ubu.. > 
Ubuntu Community Ask! Developer Design Hardware insights Juju MAAS Partners Shop More ~ 


ubuntu? cou ered 


Downloads » Overview Cloud Server Desktop Alternative downloads ^ Ubuntu flavours 


Download Ubuntu Desktop 


Ubuntu 16.04.3 LTS 


Download the latest LTS version of Ubuntu, for desktop PCs and laptops. LTS 
stands for long-term support — which means five years, until April 2021, of 
free security and maintenance updates, guaranteed. 


Alternative downloads and torrents » 


Al 3.3 Ubuntu 16. 04. 3 Desktop 
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启动 已 经 安装 好 的 VirtualBox, fiii VirtualBox 图 标 ,并 选择 “以 管理 员 
身份 运行 "。 单 击 “ 新 建 ”按钮 ,会 显示 图 3. 4 所 示 的 启动 画面 。 此 时 ,我 们 需要 
填写 虚拟 机 的 名 称 、 类 型 .版 本 等 信息 。 此 处 ,我 们 将 虚拟 机 命名 为 
DeepLearning, 类 型 为 Linux, 版 本 为 Ubuntu(64-bit) 。 

为 新 建 的 虚拟 机 分 配 内 存 。 如 果 读 者 处 理 的 数据 量 较 大 ,建议 至 少 分 配 
4 GB(4 096 MB) 内 存 , 本 书 以 分 配 2 GBC 048 MB) 内 存 为 例 ,如 图 3.5 所 示 。 


Qj Oracle VM VirtualBox 管理 器 
管理 ( F) 控制 (M) 帮助 (H 


? x 
所 新建 虚拟 电脑 
所 新建 虚拟 电脑 
虚拟 电脑 名 称 和 系统 类 型 
内 存 大 小 
请 选择 新 虚拟 电脑 的 描述 名 称 及 要 安装 的 操作 系统 类 
型 。 此 名 称 将 用 于 标识 此 府 拟 电脑 选择 分 配给 虚拟 电脑 的 内 存 大 小 (WB) 。 
: [DeepLearning 建议 的 内 存 大 小 为 1024 WB. 
: [Einux | | 
): [Ubuntu (64-bit) 4 MB 8192 MB 
[exit [[r—5o ]| mis 750 | | 取消 
图 3.4 JAZ VirtualBox 并 安装 虚拟 机 图 3.5 设置 虚拟 机 内 存 大 小 
为 虚拟 机 创建 虚拟 硬盘 。 选 择 “ 现 在 创建 虚拟 硬盘 ”, 如 图 3.6 所 示 。 
? x 
© 新 建 虚拟 电脑 
虚拟 硬盘 


你 可 以 添加 虚拟 硬盘 到 新 虚拟 电脑 中 。 新 建 一 个 虚拟 硬 
盘 文 件 或 从 列表 或 用 文件 夹 图 标 从 其 他 位 置 选择 一 个 。 


如 果 想 更 灵活 地 配置 庶 拟 硬盘 ， 也 可 以 跳 过 这 一 步 ， 在 
创建 虚拟 电脑 之 后 在 配置 中 设 定 - 


建议 的 硬盘 大 小 为 10. 00 GB. 
O 不 添加 虚拟 硬盘 (D) 


[OR 现在 创建 虚拟 硬盘 (C) 


O 使 用 己 有 的 虚拟 硬盘 文件 (0) 
a 


Lt] 
图 3.6 ”创建 虚拟 硬盘 


为 虚拟 硬盘 选择 文件 类 型 。 建 议 选择 默认 文件 类 型 VDI, 如 图 3.7 所 示 。 
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所 创建 虚拟 硬盘 


虚拟 硬盘 文件 类 型 


请 选择 您 想 要 用 于 新 建 庶 拟 磁盘 的 文件 类 型 。 如 果 您 不 需要 其 他 虚拟 化 软 
件 使 用 它 ， 您 可 以 让 此 设置 保持 不 更 改 状态 。 


图 VDI (VirtualBox Eig) 
O VHD (虚拟 硬盘 ) 
© w (虚拟 机 磁盘 ) 


专家 模式 (E) | | 下 一 步 (N) 取消 


图 3.7 选择 虚拟 硬盘 文件 类 型 


选择 虚拟 硬盘 在 物理 硬盘 上 的 存储 方式 。 此 处 ,选择 固定 大 小 ,以 便 提升 虚 
拟 机 的 运行 速度 ,如 图 3.8 所 示 。 


e ”创建 虚拟 硬盘 


存储 在 物理 硬盘 上 


i (动态 分 配 ) ， 还 是 应 该 创 
建 完 全 分 配 (BEDE) 


动态 分 配 的 虚拟 磁盘 只 是 逐渐 占用 物理 硬盘 的 空间 (直至 达到 分 配 的 大 
小 )， 不 过 当 其 内 部 空间 不 用 时 不 会 自动 缩减 占用 的 物理 硬盘 空间 。 
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O 动态 分 配 (D) 
(€ 固定 大 小 (F) 


xs] 
图 3.8 虚拟 磁盘 分 配方 式 


选择 虚拟 硬盘 在 Windows 上 的 存储 位 置 。 此 时 ,需要 首先 在 Windows 系 
统 上 找到 剩余 存储 空间 较 大 的 硬盘 (本 书 是 F 盘 ), 并 新 建 一 个 文件 夹 (本 书 命 
名 为 Virtual Box) 。 虚 拟 硬盘 的 大 小 建议 至 少 选 择 10 GB, 以 20 GB 为 佳 , 如 
图 3.9 所 示 。 

虚拟 机 创建 完成 , 接 下 来 安装 Ubuntu Linux 操作 系统 。 选 择 “DeepLearning” 
并 单 击 “ 启 动 ”按钮 ,如 图 3. 10 所 示 。 

选择 Linux 系统 盘 。 找 到 已 经 下 载 的 Linux 系统 盘 的 ISO 镜像 文件 ,并 选 
择 “ubuntu-16. 04. 3-desktop-amd64. iso”, 如 图 3. 11 所 示 。 

操作 系统 语言 选择 “English”, 然后 单 击 “Install Ubuntu” 按 钮 ,如 图 3. 12 
所 示 。 
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创建 文件 要 保 存 到 的 文件 夹 。 
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TOHESICEN 大 小 。 此 大 小 为 虚拟 硬盘 文件 在 卖 际 硬盘 中 能 用 的 极限 大 


4 10.00 GB 


4.00 MB 2.00 TB 


| | 
图 3.9 “虚拟 硬盘 位 置 和 大 小 
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图 3.10 启动 新 创建 的 虚拟 机 
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虚拟 光盘 文件 或 已 放 入 光盘 
月 动 虚拟 电脑 - 

可 局 动 并 且 有 你 想 安装 的 操作 
下 次 关闭 虚拟 电脑 时 ， 此 光盘 可 
出 ; 你 也 可 以 手动 弹出 - 


ubuntu-16. 04. 3-desktop-and64. -- [A] 


启动 取消 
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图 3.11 选择 下 载 的 Ubuntu Linux 系统 盘 
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Install (as superuser) 


Welcome 


Spano 
Esperanto 

Euskara 

Français 

Gaeilge 

Galego 

Hrvatski 

islenska 

Italiano 

Kurdi Try Ubuntu 

Latviski 

Uetuviškai 

iamar You can try Ubuntu without making any changes to your computer, directly from this CD. 


Nederlands Or if you're ready, you can install Ubuntu alongside (or instead of) your current operating system. This 


Norsk bokmal shouldn't taketoo long 
Norsk nynorsk 

Polski 

DavhinuBe You may wish to read the. 


WE SHH O Serie ctrl 


图 3.12 安装 Ubuntu 


为 提升 


速度 ,此 处 建议 不 选择 安装 操作 系统 的 附加 项 ,如 图 3. 13 所 示 。 
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ypo t 


Install (as superuser) 


Preparing to install Ubuntu 


Download updates while installing ubuntu 
Ths afta instalation 


Install third-party software l'or graphics and Wi-Fi hardware, Flash, MP3 and other media 
This software fs subject to license terms included with ks documentation. Some is proprietary. 


Fuendo MP3 plugin includes MPEG Layer 3 audio decoding technology licensed From Fraunhofer IIS and Technicolor SA. 


DONS Ss AMG Sw kien ctzl 
图 3. 13 不 选择 安装 操作 系统 的 附加 项 


选择 安装 选项 。 建 议 选 择 格式 化 虚拟 硬盘 并 安装 操作 系统 (Erase disk and 
install Ubuntu) ,如 图 3. 14 所 示 。 
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Install (as superuser) 
Installation type 


This computer currently has no detected operating systems. What would you like to do? 
O Erase disk and install ubuntu 
Warning This wil delete al your programs documents, photos, music, and any other flesin al operating stems 
Encrypt the new Ubuntu installation for security 
Vou wil choose a security key in the next te 
Use LVM with the new ubuntu installation 


This will set up Logical Volume Management. It allows taking snapshots and easier partition resizing 


Something else 
You can create or resize partitions yoursel, or choose multiple partitions for Ubuntu. 
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装 类 型 


Continue”, 安 


装 Ubuntu 操作 系统 ,如 图 3.15 所 示 。 
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This computer currently has no detected operating systems. What would you like to do? 


© Erase disk and install Ubuntu 
Warning: This wil delete al your programs, documencs, phocos, music, and any cher fies in al operating stems: 


Write the changes to disks? 
IF you continue, the changes listed below will be written to the disks, Otherwise, you will be able to make further changes manually. 


The partition tables of the Following devices are changed 
'SCSI3 (0,0,0) (sda) 


The following partitions are going to be formatted: 
partition #1 of SCSI3 (0,0,0) (sda) as exta 
partition #5 of SCSI3 (0,0,0) (sda) as swap 
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图 3.15 确认 安装 类 型 
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中 只 能 选择 “Shanghai”, 如 图 3. 16 所 示 。 
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图 3. 16 
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Install (os 


Keyboard ls 


Choose your keyboard layout: 


English (Ghana) 
English (Nigeria) 
English (South Africa) 


a ish (UK) 


Esperanto 
Estonian 
Faroese 
Filipino 


选择 时 区 


盘 类 型 。 默 认 都 是 选择 English(US) ,如 图 3.17 所 示 。 


(exe [US] -Cherokee 


English (US) -English (Colemak) 
English (US) -English (Dvorak alternative international no dead keys) 
English (US) -English (Dvorak) 
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English (US) - English (Programmer Dvorak) 

English (US) - English (Us, alternative international) 
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图 3.17 
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填写 用 户 名 和 密码 ,建议 名 称 不 要 太 长 ,如 图 3.18 所 示 。 
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Your name: [deeplearning 
Your computer's name: | deeplesrning VB. 

The nae uses wher E talks to other computers 

Pick a username: | deeplearning 
Choosea password: | @@@@e 
Confirmyour password: |eeeeeeee 
Login automatically 
© Require my password to login 
Encrypt myhome folder 


Continue 
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.18 填写 用 户 名 和 密码 


接 下 来 开始 安装 Ubuntu Linux 操作 系统 ,安装 完成 后 ,需要 重新 启动 操作 
系统 ,如 图 3. 19 所 示 。 
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(i) Installation is complete. You need to restart the computer in order to use the new installation. 
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图 3.19 重启 系统 
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按照 设置 的 用 户 名 和 密码 ,登录 操作 系统 ,如 图 3. 20 Bron o 
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在 Ubuntu Linux 系统 桌面 , 右 击 ,在 弹出 的 对 话 框 中 选择 “Open Terminal”, 


打开 Linux 命令 行 , 如 图 3. 21 所 示 。 
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图 3.21 打开 命令 窗口 
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为 避免 每 次 用 鼠标 右键 启动 命令 行 窗口 ,可 固定 到 左 侧 启动 栏 。 在 左 侧 启 
动 栏 选择 Terminal 终端 的 图 标 , 并 右 击 ， ae 对 “Lock to Launcher”, 即 可 将 命令 
行 窗口 固定 到 启动 栏 , 下 次 再 启动 命令 行 窗口 时 ,只 需要 单 击 启动 栏 的 命令 行 窗 
口 图 标 即 可 ,如 图 3. 22 所 示 。 
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B 3.22 固定 命令 窗口 


FÆ Linux 版 本 的 Python 集成 开发 环境 Anaconda。 首 先 ,访问 Anaconda 
首页 (https://www. anaconda. com/download/ # linux). FX Python 3. 6 版 本 
的 Anaconda, dll [E] 3. 23 所 示 。 

下 载 完 成 的 Anaconda 在 Downloads 文件 夹 下 ,如 图 3. 24 所 示 。 

打开 命令 行 窗口 (Terminal ) ,用 ls 命令 查看 当前 目 文件 和 文件 夹 ， 
并 使 用 cd 命令 进入 Downloads 文件 夹 。 用 bash 命令 安装 下 载 的 Anaconda, 如 
图 3.25 所 示 。 在 开始 安装 Anaconda 之 前 ,需要 多 次 按 回 车 键 ,以 浏览 License。 

输入 yes 并 按 回 车 ,再 次 按 回 车 后 开始 安装 Anaconda, 如 图 3. 26 所 示 。 

将 Anaconda 的 启动 路 径 添加 到 系统 路 径 PATH 中 ,以 方便 Anaconda 命 
令 行 的 应 用 和 Spyder 的 启动 。 如 图 3. 27 所 示 ,输入 yes 并 按 回 车 。 

Anaconda 安装 完成 后 ,需要 首先 关闭 命令 行 窗口 (Terminal) ,再 重新 打开 
后 ,才能 使 用 命令 行 启动 Spyder。 

安装 深度 学 习 Python FE Keras。 重 新 启动 命令 行 窗口 后 ,直接 输入 “conda 
intall keras” 并 按 回 车 键 后 , 即 可 进行 Keras 安装 。 输 入 y, 继 续 安装 Keras, 如 
图 3. 28 所 示 。 
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plearning/anaconda 


FCT 


2 Keras 


Keras 各 模块 均 显示 100% 时 ,表明 其 安装 完成 。 只 需 在 命令 行 窗口 输入 
spyder 并 按 回 车 键 后 , 即 可 启动 Python 集成 开发 环境 (IDE) Spyder. 如 图 3. 29 
所 示 。 
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图 3.29 启动 Python 集成 开发 环境 Spyder 


测试 深度 学 习 库 Keras 是 否 安装 成 功 。 在 打开 的 Spyder IDE 中 ,加 载 Keras 库 ， 
如 果 成 功 则 表明 Keras 安装 成 功 。 输 入 命令 : from keras. models import Sequential, 
按 回 车 键 ,显示 Using TensorFlow backend. 表明 Keras 安装 成 功 ,如 图 3. 30 所 示 。 
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Python 3.6.3 lAnaconda custom (64-bit)] (default, Oct 13 2617, 
12:02:49) 
Type "copyright", "credits" or "Liconsa" for more information. 
ipython 6.1.9 -- An enhanced Interactive Python. 

A fin [1]: from keras.models import Sequential 
Using TensorFlow backend 


In [2] 
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图 3.30 测试 Keras 是 否 安装 成 功 


中 国债 券 市 场 概 况 


目前 ,中 国债 券 市 场 包括 银行 间 市 场 、 交 易 所 市 场 和 商业 银行 柜台 交易 市 
场 。 截 至 2017 4E 12 月 31 日 ,从 存量 债券 余额 来 看 ,银行 间 市 场 存 量 债券 余额 
占 比 约 50% 、 沪 深交 易 所 市 场 占 比 约 43%、 柜 台 市 场 占 比 约 7%。 从 存量 债券 
余额 情况 来 看 ,银行 间 市 场 和 交易 所 市 场 基本 处 于 “势均力敌 ”状态 。 


4.1 债券 交易 场所 


由 于 历史 的 原因 ,中 国 的 债券 交易 市 场 主 要 分 为 银行 间 市 场 和 交易 所 市 场 
两 大 交易 场所 。 虽然 目前 这 两 大 交易 场所 按 存量 债券 余额 统计 计算 基本 各 占 
“半壁 江山 ”, 但 曾经 的 银行 间 市 场 占据 了 中 国债 券 市 场 存量 和 交易 量 90% 以 上 
的 份额 。 中 国债 券 市 场 发 展 的 历史 基本 可 以 分 为 五 个 阶段 。 

第 一 阶段 从 1981 年 到 1987 年 ,是 债券 市 场 的 萌芽 阶段 。1981 年 ,国债 
恢复 发 行 ,标志 着 中 国债 券 市 场 的 正式 萌芽 ,1984 年 开始 出 现 企业 债券 ,1985 
年 国有 商业 银行 也 开始 发 行 金融 债券 。 但 是 ,在 这 一 阶段 并 没有 合法 成 型 的 
债券 交易 机 制 和 交易 场所 ,债券 不 能 进行 转让 和 交易 ,债券 持 有 人 只 能 选择 持 
有 到 期 。 因 此 ,可 以 说 这 一 阶段 的 债券 市 场 是 非常 原始 的 ,是 债券 市 场 的 萌芽 
阶段 。 

第 二 阶段 从 1988 年 到 1996 年 ,是 债券 市 场 的 起 步 和 探索 阶段 。1988 年 ， 
财政 部 和 中 国人 民 银 行 开始 筹划 建立 公开 的 国债 流通 市 场 ,1990 年 12 A, 
所 债券 市 场 正式 成 立 ,标志 着 中 国债 券 市 场 的 发 展 进入 一 个 新 的 历史 阶段 。 
后 ,债券 发 行 开始 试行 市 场 化 ,从 行政 摊派 向 承 购 包销 及 招标 方式 转换 ,1995 E 
国债 招标 发 行 试点 成 功 ,是 这 一 阶段 债券 市 场 发 展 的 另 一 个 重大 突破 。 

第 三 阶段 从 1997 年 到 2002 年 。 在 这 一 阶段 ,银行 间 债券 市 场 异 军 突起 ,中 
国债 券 市 场 的 框架 基本 形成 。 1997 年 6 月 ,中 国人 民 银 行 要 求 各 商业 银行 全 部 

退出 交易 所 市 场 ,同时 建立 了 全 国 银行 间 债 券 市 场 ,由 外 汇 交 易 中 心 系统 作为 报 
价 系统 ,由 中 央 国 债 登记 结算 公司 作为 后 台 托 管 结算 平台 ,并 实行 询 价 交 易 。 此 
后 ,银行 间 债券 市 场 逐 渐 发 展 成 为 所 有 类 型 机 构 均 可 参与 的 债券 市 场 , 并 最 终 形 
成 以 银行 间 债 券 市 场 为 主 , 交 易 所 债券 市 场 和 商业 银行 柜台 市 场 为 辅 的 中 国 特 
色 债 券 市 场 体系 。 
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第 四 阶段 从 2003 年 到 2015 年 。 在 这 一 阶段 ,利率 市 场 化 加 速 进行 ,债券 品 
种 丰富 发 展 , 制 度 建设 与 市 场 监管 逐渐 发 展 并 完善 。 最 突出 的 是 信用 产品 实现 
大 发 展 ,如 短期 融资 券 、 中 期 票据 、 无 担保 企业 债 、 分 离 交 易 可 转 债 、 公 司 债 等 品 
种 ,市场 规模 从 小 到 大 ,迅速 发 展 。 此 外 ,衍生 产品 也 从 无 到 有 ,实现 了 突破 ,如 
债券 远 期 .利率 互 换 等 产品 , 均 在 这 一 阶段 开始 出 现 。 

第 五 阶段 从 2015 年 至 今 。 这 一 阶段 主要 表现 为 公司 债 发 行规 模 迅 速 增 
长 ,使 得 原来 以 银行 间 市 场 为 绝对 主导 的 中 国债 券 市 场 , 发 展 为 现在 银行 间 市 
场 和 交易 所 市 场 各 占 “ 半 壁 江 山 ” 的 情况 。 这 主要 是 因为 2015 年 1 月 15 日 证 
监 会 颁布 了 公司 债 发 行 新 规 , 使 得 公司 债 的 发 行 方式 由 原来 的 审批 制 , 变 为 公 
开发 行 核准 制 、 私 募 发 行 备案 制 ,上 且 将 公司 债 的 发 行 主 体 由 原来 的 上 市 公司 变 
为 非 上 市 公司 也 可 发 行 , 准 入 门槛 降 得 较 低 。 因 此 ,该 阶段 使 得 交易 所 市 场 债 
券 发 行规 模 迅 速 增长 ,直到 2017 年 底 存 量 债券 的 总 规模 跟 银行 间 市 场 相 比 ， 
基本 相同 。 

经 过 30 多 年 的 发 展 ,时 至 今日 ,中 国债 券 市 场 已 经 发 展 成 为 品种 多 样 .市场 
多 元 ,存量 债券 余额 约 122 万 亿 元 的 多 层次 债券 直接 融资 市 场 , 各 交易 场所 功能 
分 类 如 表 4. 1 所 示 。 


表 4.1 中 国债 券 市 场 各 交易 场所 功能 分 类 
市 场 类 型 银行 间 债 券 市 场 交易 所 债券 市 场 ”| 银行 柜台 债券 市 场 
市 场 性 质 场 外 交易 场 内 交易 场 外 交易 
国债 .金融 债 、 短 期 融资 券 、| 国债 .地 方 政府 债 、 金 
EHTA PHAR A dt. EH . 

发 行 和 交易 人 融 债 \ 政 府 支持 机 构 | 国债 金融 债 、 企 业 
»5 债 , 政 府 支持 机 构 债 、 资 产 支 | 俩 ,企业 债 .公司 债 、| 债 . 政 府 支持 机 构 俩 
持 证 券 .同业 存单 .项 目 收益 | 资产 支持 证 券 .可 交 | S 

票据 、 地 方 政府 俩 DX DET 
" " pum | 可 分 离 交 易 可 转 债 、 
衍生 交易 工具 | 远 期 利率 协议 .利率 互 换 等 | 普通 可 转 俩 
, 所 有 投资 者 (一 部 分 | | 人， 
投资 者 类 型 ”| 各 类 机 构 投资 者 Mb Ri 个 人 和 企业 投资 者 
现 券 交 易 、 质 押 式 回 购买 断 | 现 券 交 易 、 质 押 式 | ya 
交易 类 型 。 | 式 回 购 、 远 期 交易 回 购 现 券 交易 
交易 方式 一 对 一 询 价 交易 FL iu 银行 柜台 报价 
结算 体制 BES UIS 日 终 净 额 结算 BES RAM 
结算 时 间 T+0 或 T+1 T+0 T+0 
债券 托管 机 构 | 中 债 合 中 证 合 商业 银行 
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4.2 信用 债 和 利率 债 


债券 市 场 主要 的 交易 品种 是 债券 ,债券 面临 最 主要 的 风险 是 信用 风险 ,根据 
各 交易 品种 信用 风险 的 不 同 , 通 常 将 债券 分 为 利率 债 和 信用 债 。 

利率 债 是 指 发 行 主体 具有 国家 信用 ,一 般 不 会 违约 的 本 币 国家 主权 债券 。 
如 国债 .政府 支持 债券 .地方 政府 债券 ( 因 中 国 国 情 , 此 处 暂时 将 政府 支持 债券 和 
地 方 政府 债券 划分 为 利率 债 )、 政 策 性 金融 债 ( 国 开 、 口 行 、 农 发 )、 央 行 票据 等 。 
发 行 利率 债 的 主要 目的 包括 为 国家 和 地 方 政 府 财政 服务 、 调 节 市 场 流 动 性 和 利 
率 区 间 等 。 

信用 债 是 指 发 行 主体 不 具备 本 币 国家 主权 信用 ,可 能 会 违约 、 由 企业 发 行 并 
确定 本 息 偿付 现金 流 的 债券 。 如 企业 债 、 公 司 债 、 短 融 、 中 票 .ABS.、 次 级 债 , 金 融 
债 等 。 发 行 信用 债 的 主要 目的 是 为 市 场 主体 提供 直接 融资 渠道 ,将 信用 风险 从 
银行 体系 分 散 到 全 市 场 。 

截至 2017 年 12 月 31 日 ,中 国债 券 市 场 存量 债券 总 规模 约 122 万 亿 , 按 各 
债券 类 型 分 类 统计 汇总 ,如 表 4. 2 所 示 。 可 见 ,利率 债 占 据 约 3/4 的 存量 债券 余 
额 , 且 其 中 占 比 最 高 的 是 国债 。 信 用 债 仅 占 存量 债券 余额 的 1/4, 在 信用 债 中 占 
比 最 大 的 债券 品种 为 企业 债 、 公 司 债 和 中 期 票据 。 

表 4.2 ”债券 类 型 分 类 统计 汇总 


类 型 债券 分 类 余额 / 亿 元 占 比 /% 
国债 403 186. 87 33.14 

利率 债 地 方 政 府 债 371 721.35 30. 55 
政策 银行 债 126 009.56 10. 36 
定向 工具 19 499. 61 1. 60 
国际 机 构 债 230.00 0. 02 
保险 公司 债 1 377.50 0.11 
集合 票据 1.86 0. 00 
ol 合 企业 债 204. 20 0.02 

信用 债 
交易 商 协 会 ABN 537.08 0.04 
可 交换 债 1 823.79 0.15 
可 转 债 1 198.18 0. 10 
其 他 金融 机 构 债 3 453. 80 0.28 
商业 银行 次 级 债券 20 277.62 1.67 
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1 
Js 续 表 
te 类 型 债券 分 类 余额/ 亿 元 占 比 /% 
P4 商业 银行 债 10 154. 20 0. 83 
' : 私募 债 23 608.58 1.94 
Pb 政府 支持 机 构 债 14 700. 00 1.21 
' 1 项 目 收益 票据 95. 60 0.01 
S 一 般 短 期 融资 券 3 435.40 0. 28 
应 一 般 公司 债 26 576.01 2.18 
1 信用 债 一 般 企业 债 53 826.87 4. 42 
i» 一 般 中 期 票据 47 345.71 3. 89 
: $ 银监会 主管 ABS 6 291.04 0.52 
ie 证 监 会 主管 ABS 8 774.09 0.72 
| Rs 证 券 公 司 短期 融资 券 50. 00 0. 00 

4g. 证 券 公司 债 12 785.75 1.05 

= 超 短 期 融资 债券 8 651.30 0.71 

其 他 同业 存单 50 756. 30 4.17 
合 计 1 216 572.27 100, 00 


音 用 债 投资 面临 的 困难 和 解决 方案 


中 国 市 场 进行 信用 债 投 资 时 ,面临 着 许多 客观 实际 的 困难 ,如 外 部 评级 区 分 
能 力 太 差 、 对 投资 基本 没有 参考 价值 ,财务 粉饰 现象 比较 常见 .财务 报表 无 法 真 
实 有 效 地 反映 企业 真实 的 还 款 能 力 ,财报 披露 不 及 时 、 财 报 披露 为 发 债 服务 ,发 
债 成 功 后 不 再 披露 财务 信息 等 ,这 些 客观 存在 的 实际 困难 都 给 信用 债 投资 者 带 
来 很 大 的 困难 。 本 章 重 点 分 析 这 些 困难 ,并 给 出 相应 的 解决 方案 。 


5.1 信用 债 分 析 面 临 的 主要 困难 


由 于 我 国 市 场 经 济 体 制 建设 起 步 较 晚 ,全 社会 信用 体系 建设 也 不 健全 ,上 市 
公司 财务 欺诈 现象 时 有 发 生 。 因 此 ,我 们 在 做 信用 债 投资 时 不 可 避免 地 面临 一 
些 无 法 克服 的 实际 困难 ,就 笔者 近 10 年 的 研究 分 析 来 看 ,这 些 困难 主要 表现 为 
以 下 几 点 。 

第 一 ,外 部 评级 区 分 能 力 太 差 , 对 信用 债 投 资 几 乎 没有 参考 价值 。 截 至 
2018 年 2 月底, 资本 市 场 存 量 有 评级 信用 债 约 17 000 只 ,这 些 债券 的 主体 评级 
分 布 情况 ,如 图 5.1 所 示 。 可 见 , 外 部 评级 非常 集中 在 前 四 个 等 级 ,其 中 AAA 
占 比 约 29%、AA 十 占 比 约 22%、AA 占 比 约 37%、AA 一 占 比 9%。 由 于 十 /一 
符号 仅 代表 上 略 高 或 略 低 于 本 等 级 ,表示 微调 ,并 未 表示 较 大 等 级 间 的 差异 ,因此 
合并 统计 的 情况 下 AAA 占 比 约 29%,AA( 含 AA 十 ,AA 一 ) 占 比 约 68%, 这 两 
个 等 级 合计 占 比 约 97%。 

作为 对 比 ,我 们 通过 穆 迪 官网 找 出 所 有 的 穆 迪 全 球 样本 主体 评级 数据 ,绘制 
如 图 5.2 所 示 的 分 布 图 。 和 中 国 市 场 主体 评级 分 布 图 对 比 ,我 们 可 以 清晰 地 发 
现 , 穆 迪 全 球 样本 的 主体 评级 分 布 非常 分 散 , 非 常 类 似 于 右 偏 的 Beta 分 布 , 且 高 
信用 等 级 (如 Aaa 和 Aa) 的 占 比 极 少 ,其 中 Aaa 和 Aa 两 个 最 高 信用 等 级 的 合计 
占 比 只 有 约 1.3%。 

那么 ,被 评 主体 实际 违约 情况 跟 评 级 符号 所 代表 的 含义 是 否 一 致 呢 ? 我 们 
先 来 看 下 国内 评级 机 构 对 评级 符号 的 定义 ,如 表 5. 1 所 示 。 这 个 评级 符号 的 定 
义 , 跟 穆 迪 评级 符号 的 定义 基本 一 致 。 也 可 基本 认为 国内 外 部 评级 机 构 对 信用 
等 级 符号 的 定义 是 从 穆 迪 等 国外 评级 机 构 翻译 过 来 的 。 
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表 5.1 评级 符号 的 定义 
序号 | 评级 符号 定 x 
1 AAA 受 评 对 象 偿还 债务 的 能 力 极 强 ,基本 不 受 不 利 经 济 环境 的 影响 ,违约 风 
险 极 低 
3 AA 受 评 对 象 偿还 债务 的 能 力 很 强 , 受 不 利 经 济 环境 的 影响 较 小 ,违约 风险 
很 低 
A 受 评 对 象 偿还 债务 的 能 力 较 强 , 较 易 受 不 利 经 济 环境 的 影响 ,违约 风险 
较 低 
BBB 受 评 对 象 偿还 债务 的 能 力 一 般 . 受 不 利 经 济 环境 的 影响 较 大 ,违约 风险 
一 般 
5 BB 受 评 对 象 偿还 债务 的 能 力 较 弱 . 受 不 利 经 济 环境 的 影响 很 大 ,有 较 高 违 
约 风险 
6 B 受 评 对 象 偿还 债务 的 能 力 较 大 地 依赖 于 良好 的 经 济 环境 ,违约 风险 很 高 
7 CCC 受 评 对 象 偿还 债务 的 能 力 极度 依赖 于 良好 的 经 济 环境 ,违约 风险 极 高 


信用 债 投资 面临 的 困难 和 解决 方案 


续 表 
序号 | 评级 符号 E X 
8 | cc | 受 评 对 象 在 破产 或 重组 时 可 获得 保护 较 小 ,基本 不 能 保证 偿还 债务 
9 È 受 评 对 象 不 能 偿还 债务 


注 : BR AAA 和 CCC 级 以 下 等 级 外 ,每 一 个 信用 等 级 可 用 “十 “一 "符号 进行 微调 ,表示 咯 高 或 略 低 
于 本 等 级 。 

我 们 再 来 看 下 资本 市 场 实际 违约 情况 跟 评级 机 构 的 评级 预测 是 否 一 致 。 先 
看 下 国内 市 场 ,截至 2018 4E 2 月 底 , 国 内 资本 市 场 有 164 只 债券 发 生 了 实质 性 
违约 ,其 中 有 119 只 债券 是 有 评级 的 ,这 些 有 评级 债券 违约 前 1 年 主体 评级 分 布 
情况 ,如 图 5.3 所 示 。 可 见 , 违 约 债券 的 主体 评级 主要 集中 在 AA 等 级 ( 含 
AA 十 和 AA 一 ), 约 占 所 有 违约 债券 的 9026 。 


44% 


占 比 /% 


图 5.3 已 违约 债券 主体 评级 分 布 图 


再 看 国际 市 场 的 情况 ,查阅 称 迪 官网 我 们 可 以 找到 所 有 被 评 机 构 历 史 发 生 
违约 情况 变化 曲线 图 ,如 图 5.4 所 示 。 虽 然 该 曲线 只 有 3 条 , 却 代表 多 重 深层 次 
AM. 

其 中 ,最 下 面 那 条 曲线 ,代表 曾经 被 穆 迪 评 为 投资 级 (BBB 一 及 以 上 属于 投 
资 级 ) 的 主体 发 生 违约 的 情况 。 可 见 , 在 正常 市 场 情况 下 ,被 称 迪 评 为 投资 级 的 
主体 ,基本 没有 发 生 过 违约 。 只 有 在 爆发 全 球 性 经 济 或 金融 危机 时 ,投资 级 主体 
才 会 发 生 违 约 , 如 2002 年 前 后 的 美国 高 科技 泡沫 破灭 和 2008 年 发 生 的 次 贷 危 
机 均 造成 了 投资 级 主体 发 生 违 约 的 情况 。 

最 上 面 那 条 曲线 ,代表 曾经 被 穆 迪 评 为 投机 级 (BB 十 及 以 下 属于 投机 级 ) 的 
主体 发 生 违 约 的 情况 。 可 见 , 在 正常 市 场 情况 下 ,被 穆 迪 评 为 投机 级 的 主体 会 偶 
尔 发 生 违 约 。 但 在 极端 情况 发 生 时 ,投机 级 主体 发 生 违约 的 情况 会 快速 增加 。 

中 间 那 条 曲线 代表 的 是 所 有 被 穆 迪 评级 的 主体 发 生 违 约 的 情况 ,可 见 其 发 
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图 5.4 穆 迪 全 球 样本 主体 评级 与 违约 情况 变化 曲线 图 


生 违 约 的 情况 跟 投机 级 主体 发 生 违约 的 情况 强 相关 。 

通过 以 上 分 析 ,我 们 认为 ,被 穆 迪 评 为 投资 级 的 主体 在 正常 市 场 情 况 下 , 基 
本 不 会 发 生 违约 ,只 有 在 极端 市 场 情况 下 ,如 经 济 危 机 发 生 时 , 才 可 能 发 生 违约 。 
而 被 称 迪 评 为 投机 级 的 主体 在 正常 市 场 情况 下 偶尔 会 发 生 违 约 , 在 极端 市 场 情 
况 下 发 生 违 约 的 主体 快速 增加 。 

穆 迪 评级 发 生 实际 违约 的 情况 , 跟 其 评级 符号 所 代表 的 含义 基本 一 致 ,而 国 
内 外 部 评级 的 评级 符号 跟 其 发 生 实际 违约 的 情况 非常 不 一 致 。 例 如 ,国内 外 部 
评级 机 构 将 AA 主体 的 信用 描述 为 “ 受 评 对 象 偿还 债务 的 能 力 很 强 , 受 不 利 经 济 
环境 的 影响 较 小 ,违约 风险 很 低 ”。 可 是 ,实际 违约 事件 90% 发 生 在 AAC AA 
十 和 AA 一 ) 的 受 评 主体 中 。 
最 后 ,我们 看 下 国内 评级 机 构 和 穆 迪 的 评级 结果 是 否 可 用 于 信用 风险 定价 。 
笔者 通过 彭 博 资讯 (Bloomberg) 导 出 所 有 的 中 国 公司 在 美国 市 场 发 行 过 的 美元 
债券 ,并 获取 它们 被 穆 迪 给 予 的 评级 结果 和 债券 发 行 的 票面 利率 。 通 过 统计 汇 
总 相同 信用 等 级 发 行 债券 票面 利率 的 最 小 值 . 最 大 值 .中 位 数 和 平均 数 ,绘制 如 
图 5. 5 所 示 的 雷达 图 。 可 见 , 穆 迪 的 评级 结果 跟 反 映 信用 风险 定价 的 票面 利率 
直接 强 相关 , 即 被 穆 迪 评 为 高 信用 等 级 (如 投资 级 ) 的 主体 发 行 债券 的 票面 利率 
比较 低 , 而 被 穆 迪 评 为 低 信用 等 级 (如 投机 级 ) 的 主体 发 行 债券 的 票面 利率 相对 
投资 级 来 说 比较 高 。 表 现 出 明显 的 分 层 特性 ,这 也 说 明 穆 迪 的 评级 结果 可 用 于 
信用 风险 定价 。 

用 同样 的 方法 ,我 们 也 统计 了 国内 存量 债券 相同 信用 等 级 的 发 债主 体 ,所 发 
行 债券 票面 利率 的 最 小 值 、 最 大 值 \ 中 位 数 和 平均 数 , 并 绘制 图 5. 6 所 示 的 雷达 
图 。 可 见 , 图 中 的 四 个 四 边 形 无 明显 的 分 层 特性 ,与 图 5. 5 所 示 的 雷达 图 有 了 明显 
的 区 别 。 这 充分 说 明了 国内 的 外 部 评级 是 不 能 用 作风 险 定价 的 ,或 者 国内 债券 
发 行 主体 的 融资 成 本 跟 评 级 结果 关系 不 大 。 

第 二 ,财务 数据 对 违约 的 影响 不 显著 。 传 统 的 信用 债 投资 分 析 是 建立 在 主 
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图 5.5 中 国 公司 发 行 美元 债券 , 穆 迪 评级 和 融资 利率 关系 图 
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图 5.6 国内 外 部 评级 和 融资 利率 关系 图 


要 分 析 企 业 财务 数据 的 基础 上 ,可 是 现 阶段 企业 粉饰 财报 的 现象 时 有 发 生 , 笔 者 
统计 了 已 经 违约 企业 的 财务 数据 ,发 现 这 些 企业 在 违约 前 的 现金 流 和 盘 利 状况 
还 基本 是 “良好 的 ”, 部 分 违约 公司 的 经 营 性 现金 流 净 额 在 其 违约 前 3 年 的 情况 ， 
如 图 5.7 所 示 。 经 营 性 现金 流 净 额 为 正 , 说 明 这 家 企业 的 主 营 业务 经 营 良好 ,可 
是 实际 情况 却 是 经 营 性 现金 流 净 额 * 良 好 ”的 企业 发 生 了 违约 。 

用 同样 的 方法 ,笔者 统计 了 存量 3 542 只 民营 企业 信用 债 对 应 的 914 家 发 
行 主体 ,并 从 中 选 出 连续 3 年 亏损 的 5 家 企业 和 连续 两 年 亏损 的 20 家 企业 ,发 
现 这 25 家 企业 均 未 发 生 违约 事件 ,统计 结果 如 图 5. 8 所 示 。 
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图 5.7 已 违约 债券 现金 流 分 布 图 
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图 5.8 亏损 企业 未 违约 统计 图 


第 三 ,发 债主 体 的 财务 信息 披露 不 及 时 。 非 上 市 公司 的 财务 披露 多 数 为 发 
债 融资 服务 ,融资 完成 后 财务 信息 披露 意愿 通常 较 差 。 笔 者 通过 Wind 提取 所 
有 信用 债 ,并 剔除 保险 公司 债 \. 同 业 存 单 .政策 性 银行 债 ,政府 支持 机 构 债 券 后 ， 
共计 剩余 17590 只 债券 ,这 些 债 券 中 无 最 新 季报 披露 的 企业 约 占 34% ,如 图 5.9 
Bron. 
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图 5.9 全 市 场 信用 债 财报 披露 及 时 性 统计 图 


用 同样 的 方法 ,统计 已 经 违约 的 164 只 债券 。 如 果 我 们 将 “无 最 新 季报 披 
Be” XE X. HIEN 120 天 以 上 未 披露 财务 信息 ,将 “有 最 新 季报 披露 ?定义 为 违约 
前 120 天 以 内 披露 了 财务 信息 , 则 统计 发 现 已 经 违约 的 164 只 债券 中 ,有 19% 
的 债券 发 行 主体 有 最 新 季报 披露 ,有 81% 的 债券 发 行 主体 无 最 新 季报 披露 ,如 
Al 5. 10 所 示 。 
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图 5.10 已 违约 债券 财报 披露 及 时 性 统计 图 


5.2 解决 方案 


根据 5. 1 节 的 分 析 , 在 国内 资本 市 场 的 现状 下 ,评估 信用 债 发 行 主体 的 真正 
价值 , 遇 到 很 多 客观 存在 且 短期 内 无 法 解决 的 问题 ,我 们 总 结 如 下 。 

(1) 企业 可 比喻 为 一 个 “生命 体 ”任何 一 个 生命 体 都 不 会 突然 “病人 癌 育 ”， 
就 如 同 任何 一 个 今天 还 非常 健康 的 人 ,不 可 能 明天 就 突然 患 癌症 去 世 , 在 患 癌 症 
前 肯定 有 一 些 征兆 。 企 业 违 约 也 是 同样 的 道理 ,任何 一 家 今天 现金 流 和 盈利 都 
良好 的 企业 ,也 不 可 能 明天 就 突然 违约 了 。 财 务 报表 是 一 家 企业 是 否 良好 的 “ 体 
检 表 ”, 可 是 将 这 个 “体检 表 ” 用 于 “体检 ”国内 企业 的 “健康 状况 ”时 ,经 常会 出 现 
误 判 。 这 主要 是 因为 目前 国内 企业 粉饰 财报 的 现象 较 常 发 生 , 用 财务 报表 这 张 
企业 的 “体检 表 "? 来 判断 企业 的 健康 状况 基本 处 于 失灵 状态 ,信用 债 投资 者 基本 
有 这 么 一 个 共识 , 那 就 是 财报 中 能 发 现 问 题 的 企业 , 早 就 违约 了 ;违约 的 企业 基 
本 都 是 财报 中 没有 发 现 问题 的 。 

(2) 财报 披露 不 及 时 ,很 多 企业 的 财报 披露 是 为 企业 的 发 债 融资 服务 的 , 融 
资 成 功 后 ,财报 披露 意愿 较 差 。 

由 于 这 些 客 观 存 在 的 困难 ,传统 的 基于 财务 分 析 的 企业 信用 风险 评估 方法 ， 
目前 基本 不 能 用 于 信用 债 投资 分 析 。 笔 者 经 过 近 10 年 来 对 中 国 市 场 现状 的 深 
度 研 究 ,发 现场 外 非 财务 数据 更 能 真实 反映 企业 自身 的 还 款 能 力 和 财务 水 平 。 
我 们 先 举 两 个 例子 。 

第 一 个 是 五 洋 债 ,在 其 违约 前 1 年 左右 的 时 间 内 ,基本 没有 任何 财务 信息 披 
露 。 此 时 ,如果 我 们 采用 传统 的 基于 企业 财务 数据 的 企业 信用 风险 评估 方法 , 则 
很 难 获得 该 企业 的 真实 财务 水 平 。 但 通过 查询 跟 五 洋 建 设 集团 相关 的 司法 数 
据 , 我 们 在 这 未 披露 任何 财务 数据 的 1 年 左右 的 时 间 里 ,发 现 这 家 公司 因 欠 款 被 
告 了 很 多 次 , 且 在 2017 年 初 以 来 累计 有 超过 15 次 被 法 院 列 为 失信 被 执行 人 ”， 
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am 企业 可 比喻 为 “生命 体 ” : 
一 + 不 会 突然 ANES” ， 违 约 前 
定 有 征兆 。 
+ 财务 可 以 粉饰 ， 但 司法 信息 粉饰 
的 难度 较 大 ， 一 旦 立案 即 可 查 到 。 


图 5.11 五 洋 债 违约 前 的 司法 信息 


第 二 个 是 被 认为 不 会 发 生 违 约 的 中 央 国 有 企业 中 国 中 钢 股份 有 限 公 
司 。 同 样 ,在 中 钢 违约 前 1 年 左右 的 时 间 里 ,也 没有 披露 任何 财务 信息 。 但 通过 
查询 跟 中 钢 有 关 的 司法 信息 ,我 们 发 现 这 家 公司 在 违约 前 1 年 左右 的 时 间 里 ,出 
H 3 次 被 银行 起 诉 并 冻结 存款 或 申请 诉 前 资产 保全 的 案例 ,并 存在 其 子 公 司 因 
欠 款 被 起 诉 的 案件 ,如 图 5. 12 所 示 。 


10 中 钢 债 (中 国 中 钢 股 份 有 限 公司 ) sae aaa 
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上 市 日 期 : 
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时 间 


2014.10.13: 


中 行 申请 冻结 中 在 此 期 间 ， 无 公开 市 场 披露 
财务 信息 ! 


2015.6.3: 


2015.6.23: 
子 公司 未 支付 合同 款 、 被 起 诉 工行 上 海 分 行 起 诉 中 岗 还 本 付 息 


图 5. 12 中 钢 债 违约 前 的 司法 信息 


企业 可 以 比较 方便 地 粉饰 自己 的 财报 ,但 被 起 诉 案 件 一 旦 受理 , 即 可 在 中 国 
裁判 文书 网 (http://wenshu. court. gov. cn/) 查 到 , 且 无 法 造假 。 如 果 被 诉 案件 
中 涉及 较 多 的 赔款 信息 ,说明 这 家 企业 财务 状况 较 差 。 

由 于 国内 债券 市 场 的 流动 性 较 差 , 当 一 家 企业 被 法 院 列 为 失信 被 执行 人 后 
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距离 问题 爆发 和 债券 违约 的 时 间 点 ,往往 比较 临近 了 。 此 时 ,即使 作出 了 正确 的 
预测 也 较 难 卖 出 持 有 的 债券 。 根 据 国内 法 院 关 于 处 理 涉 诉 且 需要 赔款 的 流程 ， 
如 图 5. 13 所 示 ,获取 企业 被 告 且 需 要 赔款 时 的 涉 诉 信息 ,就 可 以 比较 及 时 地 判 
断 企业 未 来 违约 的 趋势 变化 ,并 作出 相应 的 判断 。 
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- 生效 判决 书 列 明 义 务 人 需 在 N 天 之 - 若 N 天 之 内 ,义务 人 完成 支付 ， 
内 ， 自 行 向 权利 人 支付 赔款 [— "| ARER 
[ 。 若 N 天 之 内 ,义务 人 未 完成 支付 ， | 
j f 2 ， 过 了 两 年 ， 权利 人 未 申请 执行 ， 
则 自 N+1 之 日 起 算 未 来 两 年 内 , 权 | 一” FIRE | 
利 人 有 权 向 法 院 申请 强制 执行 则 过 了 诉讼 时 效 
(. 至 于 多 久之 内 才能 完成 全 部 执行 ， 
- Se AS ERS 就 看 法 院 发 现 义务 人 有 多 少 可 执行 
日 起 ,义务 人 就 会 被 法 院 列 入 失信 “| 一 一 。 的 财产 ， 
被 执行 人 - 极端 情况 下 ， 义 务 人 真 的 无 可 执行 


3 资产 ， 那 这 个 案件 就 无 期 限 延 长 


图 5.13 涉 诉 且 赔款 流程 


除了 司法 相关 的 信息 可 用 于 提前 判断 企业 的 财务 状况 外 ,笔者 研究 发 现存 e 
量 债券 到 期 收益 率 的 异常 波动 ,也 是 企业 还 款 能 力 变 差 的 一 个 明显 信号 ,上 且 该 信 
号 基本 可 在 违约 前 6 个 月 以 上 出 现 ,显然 比较 有 价值 。 通过 研究 已 经 违约 的 
164 只 债券 ,发 现 基 本 都 在 违约 前 6 个 月 以 上 出 现 到 期 收益 率 异 常 的 情况 , 如 
图 5.14 所 示 。 出 现 这 种 信号 的 主要 原因 是 在 企业 违约 前 ,基本 都 会 存在 ”市场 
灵通 人 士 ?提前 获取 这 家 公司 现金 流 紧 张 . 还 款 能 力 变 差 的 信息 ,从 而 在 市 场 上 
低 价 抛售 这 家 公司 的 债券 。 
除了 上 述 场 外 定性 数据 以 外 ,笔者 还 提取 了 如 下 的 定性 入 模 指标 。 
CD) 最 近 1 年 被 诉 且 需 要 赔款 的 次 数 占 该 主体 所 有 同类 案件 的 比重 。 
(2) 最 近 2 年 被 诉 且 需 要 赔款 的 次 数 占 该 主体 所 有 同类 案件 的 比重 。 
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na.omit(yield) 
na.omit(yield) 
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图 5.14 部 分 违约 债券 违约 前 到 期 收益 率 的 变化 
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na.omit(yield) 


5.8 6.0 6.2 6.4 6.6 6.8 7.0 
na.omit(yield) 
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图 5.14 (D 


(3) 最 近 半 年 被 执行 次 数 占 该 主体 被 执行 总 数 的 比 。 

(4) 最 近 半年 失信 被 执行 次 数 占 该 主体 被 失信 执行 总 数 的 比 。 

(5) 近 2 年 招聘 变化 趋势 。 

(6) 是 否 存在 被 银行 起 诉 。 

这 些 数据 都 是 无 法 粉饰 和 造假 的 。 笔 者 使 用 上 述 指 标 并 使 用 实质 性 违约 样 
本 作为 违约 标记 ,通过 分 别 获取 2013 年 .2014 年 和 2015 年 的 历史 数据 ,开发 模 
型 并 预测 下 一 年 的 违约 分 类 情况 ,取得 了 很 好 的 结果 。 此 处 , 仅 分 析 测 试 结果 ， 
详细 的 Python 代码 和 模型 开发 过 程 将 在 接 下 来 的 章节 中 详 述 。 

2014 年 全 年 共计 有 6 只 债券 违约 ,其 中 4 只 民营 企业 债券 和 2 只 外 资 企 业 
债券 。 按 资金 募集 方式 分 类 ,其 中 5 只 为 私募 债 ( 无 评级 )、1 只 为 公司 债 (有 评 
级 )。 并 且 2014 年 发 生 的 债券 违约 事件 均 为 利息 违约 (因为 债券 到 期 日 均 在 
2015 年 以 后 ) 。 通 过 获取 2014 年 以 前 的 数据 开发 模型 ,如 果 假 定 违约 概率 大 于 
30% 内 部 判定 为 违约 , 则 模型 的 准确 率 为 83. 33% ,如 图 5.15 所 示 。2014 年 的 
债券 违约 出 现 了 两 个 特殊 情况 ,分 别 是 : 13 华 珠 债 ,为 私募 债 ,违约 前 无 任何 
异常 信息 披露 (司法 、 财 务 等 ); @13 中 森 债 ,为 私募 债 ,违约 前 1 个 月 内 ,有 异常 
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司法 信息 披露 ,但 时 间 太 短 ,基本 无 法 交易 。 

用 同样 的 方法 ,我 们 获取 2015 年 以 前 的 数据 ,开发 模型 并 预测 2015 年 债券 
违约 的 情况 ,如 图 5. 16 所 示 。2015 年 全 年 共计 23 只 债券 违约 ,其 中 15 只 民营 
企业 债券 .3 只 外 资 企 业 债券 .5 只 国有 企业 债券 ,这 些 债 券 共 计 13 只 私募 债 。 
与 2014 年 相 比 ,由 于 2015 年 违约 的 私募 债 占 比 减少 ,信息 披露 的 完整 性 变 好 ， 
如 果 仍 以 大 于 30% 的 违约 概率 判定 为 违约 , 则 预测 准确 率 提升 到 91. 30%。 

2015 年 的 债券 违约 事件 ,也 出 现 了 特殊 情况 , 那 就 是 中 央 国 有 企业 (天 威 集 
团 ) 第 一 次 出 现 违约 , 且 该 主体 共计 4 只 债券 发 生 违 约 。 根据 主体 性 质 的 不 同 ， 
我 们 通常 将 违约 原因 分 为 两 类 : 个 人 主体 发 生 违约 ,通常 是 “意愿 ”的 问题 。 
因为 人 的 随意 性 很 强 , 时 常 可 能 出 现 有 钱 但 忘记 或 不 愿 还 款 的 情况 。 四 机 构 主 
体 发 生 违约 ,通常 是 能力” 的 问题 。 因 为 机 构 的 主观 性 不 强 , 且 机 构 一 旦 发 生 违 
约 或 负面 信息 ,会 对 公司 的 声誉 造成 很 大 影响 , 上 且 会 影响 公司 的 正常 经 营 。 因 
此 ,机 构 主 体 发 生 的 违约 通常 真 的 是 由 其 还 款 能 力 不 足 造成 的 。 但 2015 年 出 现 
的 天 威 集团 违约 事件 或 今后 可 能 出 现 的 其 他 央企 或 国企 子 公司 \ 城 投 债 违约 事 
件 ,大 概率 是 央企 或 国企 不 愿意 还 款 的 “意愿 "问题 。 因 为 在 中 国 特 色 的 社会 主 
义 国情 下 ,央企 或 国企 的 还 款 能 力 是 不 容 置 疑 的 。 

2016 年 全 年 共计 78 只 债券 违约 ,包括 场 内 (银行 间 和 沪 深 交易 所 )56 只 和 
场 外 (区 域 股权 交易 中 心 )22 只 ;由 于 2016 年 非 私 募 债 违约 占 比 增多 且 信 息 披 
露 逐渐 完善 ,模型 的 预测 准确 率 也 不 断 提 升 , 如 图 5. 17 所 示 。 

通过 对 上 述 测试 结果 的 分 析 可 知 ,由 于 私募 债 发 债主 体 的 信息 披露 非常 不 
完整 .不 及 时 ,造成 关键 数据 的 缺失 ,影响 了 判断 准确 率 。 在 我 们 剔除 私募 债 后 ， 
最 近 3 年 的 回 测 结果 均 有 明显 提升 ,如 图 5. 18 所 示 。 这 个 测试 结果 给 了 我 们 很 
大 的 启示 , 那 就 是 信息 披露 历史 不 完整 的 债券 ,不 投资 。 

2014 年 ,只 有 1 只 非 私 募 债券 违约 , 且 是 上 市 公司 ,信息 披露 较 完善 ;违约 
概率 阅 值 取 30% 时 ,100% 地 识别 出 了 违约 事件 。 

2015 年 ,有 9 只 非 私 募 债券 违约 ,信息 披露 较 完善 ;违约 概率 阅 值 取 50% 
时 ,有 88. 89%(8 只 ) 的 债券 准确 识别 出 了 违约 事件 。 只 有 14 波 鸿 CP001 误 
判 ,主要 由 于 关键 信息 (借款 未 还 被 起 诉 ) 滞 后 造成 。 

2016 年 ,有 47 只 非 私募 债券 违约 ,信息 披露 较 完 善 ; 违 约 概率 阔 值 取 30 26 
时 ,有 97.87% (45 只 ) 的 债券 识别 出 了 违约 事件 。 有 14 益 优 02,15 46 CPOOI 
2 只 债券 由 于 信息 披露 不 完整 .不 及 时 被 误 判 。 
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本 市 场 信用 债 投资 分 析 的 中 国 特色 


本 童 将 重点 介绍 中 国资 本 市 场 信用 债 投资 分 析 时 ,面临 的 现状 及 解决 方案 。 
在 现 阶段 ,信用 债 投资 分 析 面 临 财务 数据 存在 一 定 的 粉饰 现象 .对 违约 前 的 征兆 
预测 不 显著 等 客观 问题 。 本 章 将 给 出 克服 这 些 客观 问题 的 解决 方案 ,并 给 出 财 
务 粉饰 的 本 福特 法 则 统计 识别 方法 。 

本 章 共 分 为 四 节 ,6. 1 节 重 点 介绍 MySQL 数据 库 配 置 和 自动 抓 取 建 模 所 
需 数据 的 方法 ,6. 2 节 重点 介绍 使 用 统计 方法 检验 财务 数据 对 违约 状态 的 影响 
是 否 显著 ,6. 3 节 重 点 介绍 使 用 统计 方法 检验 非 财务 的 场 外 数据 对 违约 状况 的 
影响 是 否 显 著 ,6.4 节 重 点 介绍 财务 粉饰 的 本 福特 统计 检验 方法 。 


6.1 数据 库 配 置 和 数据 抓 取 的 Python 源 代 码 


本 节 以 开源 、 免 费 的 数据 库 软 件 MySQL 为 例 ,逐步 讲述 其 安装 和 配置 过 
程 , 这 也 是 建设 信用 债 投资 分 析 所 需 的 信用 风险 数据 库 的 必要 前 提 。 各 步骤 的 
详细 过 程 如 下 所 示 。 

(D 访问 MySQL 首页 (http://www. mysql. com/), 如 图 6. 1 所 示 。 


Contact MySQL | Login 


Downloads Documentation Developer Zone 


图 6.1 访问 MySQL 首页 
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(2) 下 载 免费 的 MySQL 社区 版 ,选择 免费 的 社区 版 MySQL 服务 器 
(Community Server) , 单 击 “Downloads”, 如 图 6. 2 Bras. 


Contact MySQL | Login 


he world's most popular open source database a 


-— oo 


MySQL Community Downloads 


MySQL on Windows 


MySQL Yum Repository 


Wheat Community Server s7) 


MYSQL APT Repository MySQL Enterprise Edition 
MYSQL SUSE Re ite pen soura (commercial) 
tepository 
database. MySQL Enterprise Edition includes the 
MySQL Community Server most comprehensive ser of advanced. 
DOWNLOAD 
MySQL Cluster features and management tools for 
MySQL 


图 6.2 下 载 MySQL Community 版 本 


(3) 选择 Windows 平台 的 版 本 ,在 “Select Platform” 下 拉 列 表 中 选择 
“Microsoft Windows” 平 台 , 并 根据 自己 电脑 的 配置 选择 32 位 或 64 位 平台 (本 
书 以 32 位 机 器 为 例 ) , 单 击 *Download” 下 载 ,如 图 6.3 所 示 。 


Please report any bugs or inconsistencees you observe to our Bugs Database. 
‘Thank you for your support! 


Generally Available (GA) Releases 


MySQL Community Server 5.7.10 


Select Platform: Looking for previous GA versions? 
[Microsoft Windows 


Recommended Download: 


MySQL instaler 57 Y 
vs for Windows u m 


All MySQL Products. For All Windows Platforms. in| | > 
In One Package. 
Windows (x86, 32-bit), MySQL Installer MSI Download 


图 6.3 选择 “Microsoft Windows” ¥ & F hY 32 位 下 载 


(4) 安装 并 配置 MySQL Community Server. 下载 完 成 后 ,双击 安装 ,弹出 
图 6.4 所 示 的 安装 界面 。 

(5) 勾 选 “I accept the license terms”, 单 击 “Next” 按 钮 ,选择 数据 库 的 安装 
类 型 ,如 图 6.5 所 示 。 

(6) 选择 “Developer Default”, 单 击 “Next” 按 钮 ,检查 安装 MySQL 所 需要 
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+ 


MySQL. Installer License Agreement 


ding nmunity 


To proceed you must accept the Oracle Software License Terms. 


GNU GENERAL PUBLIC LICENSE 
Version 2, June 1991 


Copyright (C) 1989, 1991 Free Software Foundation, Inc. 

51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA 
Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing itis not allowed. 


Preamble 


[The licenses for most software are designed to take away your freedom 
to share and change it. By contrast, the GNU General Public License is 
intended to guarantee your freedom to share and change free 

software--to make sure the software is free for all its users. This 

General Public License applies to most of the Free Software 

Foundation's software and to any other program whose authors commit to 
lusing it. (Some other Free Software Foundation software is covered by 

the GNU Library General Public License instead.) You can apply it to 

[your programs, too. 


When we speak of free software, we are referring to freedom, not price. 
Our General Public Licenses are designed to make sure that you have 
the freadam £n dictribute conias nf free software (and charns fnr this 


区 1accept the license terms 


图 6.4 MySQL 安装 界面 


国 1ysQL Installer 


MySQL. Installer Choosing a Setup Type 


Communit 
Please select the Setuo Tvoe that suits vour use case. 


@ Developer Default Setup Type Description 
Installs all products needed for [installs the MySQL Server and the tools 
hoosing a Setup Type MySQL development purposes, required for MySQL application development. 
This is useful if you intend to develop 
applications for an existing server 


C Server only 


Installs only the MySQL Server This Setup Type includes: 
product. 


* MySQL Server 
C Client only 


Installs only the MySQL Client 
products, without a server 


* MySQL Workbench 
The GUI application to develop for and 
manage the server, 


C Fol * MySQL for Excel 
Installs all included MySQL Excel plug-in to easily access and manipulate 
products and features. MySQL data. 


* MySQL for Visual Studio 
c MySQL for 
sur [To work with the MySQL Server from VS, 
Manually select the products that 
should be installed on the 


* MySQL Ci rs 
system. MYSQL Connectors 


Connector/Net, Java, C/C++, OBDC and 


图 6.5 选择 数据 库 的 安装 类 型 
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的 环境 配置 ,如 图 6.6 所 示 。 


Bilaysor Installer 


MySQL. Installer Check Requirements 


The following products have failing requirements. The installer will attempt to 
resolve some of this automatically. Requirements marked as manual cannot be 
resolved automatically, Click on those items to try and resolve them manually. 


| | For Product | Requirement. 
O MySQL Workbench 6.3.5 Microsoft Visual C++ 2013 Runtime. 
Check Requirement O MySQL For Excel 13.5 Visual Studio Tools for Office 2010 is... 
O MySQL for Visual Studio 12.5 ^ Visual Studio version 2010, 2012, 20.. ^ Manual 
O MySQL Fabric 15.6 & MySQL... Microsoft Visual C++ 2013 Runtime... 
O Connector/Python (3.4) 2.1.3 Python 3.4is not installed Manual 


图 6.6 检查 安装 MySQL 所 需要 的 环境 配置 


(7) 单 击 图 6. 6 所 示 的 “Execute” 按 钮 ,环境 配置 检查 结果 如 图 6.7 所 示 。 


MySQL. Installer Check Requirements 


Add Community 


The following products have failing requirements, The installer will attempt to 
resolve some of this automatically, Requirements marked as manual cannot be 
resolved automatically. Click on those items to try and resolve them manually. 


For Product Requirement 
& MySQL Workbench 6.3.5 Microsoft Visual C++ 2013 Runtime 32 bits is not i... 
Requirement: & MySQL For Excel 13.5 Visual Studio Tools for Office 2010 is not installed 


O MySQL for Visual Studio 12.5 Visual Studio version 2010, 2012, 2013 or 2015 m. 
® MySQL Fabric 15.6 & MySQL... Microsoft Visual C++ 2013 Runtime 32 bits is not i... 
O Connector/Python 3.4) 2.1.3 Python 34 is not installed 


satisified. Those products with missing requirements 
will be not installed/upgraded. Do you wish to 
continue? 


i One or more product requirements have not been 


[cma p 81 


«Bak | execute [[ Were | cancel | 


图 6.7 环境 配置 检查 结果 


(8) 弹出 “Confirm” 对 话 框 ,如 图 6.7 tax. ii“ Yes”. Ja HG Next" tk 


钮 ,弹出 准备 安装 对 话 框 ,如 图 6. 8 所 示 。 


Bilaysor Installer 


MySQL. Installer Installation 


Ad community 
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Press Execute to upgrade the following products. 


Product. 


Status 


[A] mysa server si7.z0 
[E] mysal notifier 11.6 
[E] connectovonecs.3.s 


国 comes 116 
图 connector sa27 

国 -eaomeress 

& MySQL Connector/C 6.1.6 
[=] MySQL Documentation 5.7.10 
m — 


Ready to Install 
Ready to Install 
Ready to Install 
Ready to Install 
Ready to Install 
Ready to Install 
Ready to Install 
Ready to Install 
Ready to Install 


Click [Execute] to install or update the following packages 


< Back 


图 6.8 准备 安装 对 话 框 


(9) 单 击 图 6. 8 所 示 对 话 框 中 的 "Execute” 按 钮 ,等 待 数 据 库 安装 。 安 装 结 


束 后 ,会 显示 图 6.9 所 示 的 对 话 框 。 


C] Installer 


MySQL. Installer Installation 
Ad 


Press Execute to upgrade the following products. 


eem |C eme ] 


I 


Status. 


Q | | MySQL Server 5.7.10 
MySQL Notifier 1.1.6 
Connector/ODBC5.3.4 
Connector/C++ 116 
Connector/J 5.1.37 


Connector/NET 6.3.8 


MySQL Connector/C 6.16 


MySQL Documentation 5.7.10 


Samples and Examples 5.7.10 


Complete 
Complete 
Complete 
Complete 
Complete 
Complete 
Complete 
Complete 


Complete 


图 6.9 数据 库 安装 完成 对 话 框 
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(100 单 击 图 6. 9 所 示 对 话 框 中 的 “Next” 按 钮 ,进入 数据 库 配 置 对 话 框 ,如 
图 6.10 所 示 。 


E 


MySQL. Installer Product Configuration 
Adc 


We'll now walk through a configuration wizard for each of the following products. 


You can cancel at any point if you wish to leave this wizard without configuring all the 
products. 


Product Status 
MySQL Server 5.7.10 Ready to Configure 
Samples and Examples 5.7.10 Ready to Configure 
4 » 


图 6.10 数据 库 配置 对 话 框 


QD 选择 数据 库 服 务 器 的 配置 类 型 ,如 图 6. 11 所 示 。 有 三 种 类 型 可 选 , 作 
为 示例 ,本 书 选择 “Development Machine”, 读 者 可 根据 实际 情况 选择 其 他 类 型 。 
Bllaysor Installer IEjx| 


MySQL. Installer Type and Networking 
T 
r 57,10 Server Configuration Type 
Choose the correct server configuration type for this MySQL Server installation. This 
setting will define how much system resources are assigned to the MySQL Server 


Config Type: | Development 


Connectivity Development Machine 


Use the follol 


Server Machine 


Several server a ns will be running on 
option for 
MySQL will have 


图 6.11 选择 数据 库 服务 器 的 配置 类 型 


资 豆 市场 信 用 债 投 资 分 析 的 中 国 特色 
T 


(12) 单 击 图 6.11 中 的 “Next” 按 钮 ,并 设置 根 用 户 (root) 密 码 , 即 为 超级 用 T. 
户 密码 (本 书 设置 为 admin) ,如 图 6.12 所 示 。 + 


Bllaysor Installer efx] 


MySQL. Installer Accounts and Roles 


Server 5.7.10 


Root Account Password 
Enter the password for the root account. Please remember to store this password in a 


MYSQL Root Password: Pee 
Repeat Password: ee o 


Password Strength: Weak 


MySQL User Accounts 


Create MySQL user accounts for your users and applications. Assign a role to the user that 


of a set of privileges 
Add User | 
Edit User 


[EE 


< Back | Next > | Cancel | e 
图 6.12 设置 根 用 户 密码 


(13) 通过 单 击 图 6. 12 中 的 “Add User” 按 钮 ,添加 新 用 户 , 本 书 添加 新 用 户 
“test”, 密码 为 admin, 如 图 6.13 所 示 。 


国 1ysoL Installer 


MySQL. Installer Accounts and Roles 


710 
fou Root Account Password 


Enter the password for the root account. Please remember to store this password in à 


Mesue = 
wun T 


Password Strength: Weak 


Usemame [ee | 

Host [G1 Hosks (X05 = 

Role [w^ E 
Authentication @ MySQL 

Password (BOSS = 
Confim Password [eeeee 


Password Strength: 


ok Cancel | 


图 6.13 添加 新 用 户 并 设置 密码 
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(14) 为 新 添加 的 用 户 test 设置 “Host” 和 “Role”, 本 书 中 “Host” 设 置 为 


“localhost”,“Role” 设 置 为 “DB Admin”, 如 图 6. 14 所 示 。 


[Dmm 


MySQL Installer 


(15) 单 击 图 6. 14 中 的 “OK” 按 钮 ,完成 新 用 户 添加 ,并 单 击 “Next” 按 钮 , 设 


Ir 


taller 


rver 5.7.10 


Accounts and Roles 


Root Account Password 
Enter the password for the root account. Please remember to store this password in a 


MYSQL Root Password: pee | 
Repeat Password: SSS 


Password Strength: Weak 


ecify the username, password, and database role 


Usemame [ed 

Host em E 

Role [Exc — — — — Il 
Authentication @ MySQL 
Password IIIIII 

Conim Password [88000 — — 5 — 


Password Strength: 


ot | ca] 


Edit ser 


图 6.14 为 新 用 户 test ETE" Host” fl" Role" 


置 Windows 服务 的 名 称 ,如 图 6. 15 所 示 。 


Bilaysor Installer 


MySQL Installer 


My 


rver 5.7.10 


Windows Service 


区 configure MySQL Server as a Windows Service 


Windows Service Details 

Please specify a Windows Service name to be used for this MySQL Server instance. 
A unique name is required for each instance 

Windows Service Name: MySQL57 


[F Start the MySQL Server at System Startup 


Run Windows Service as ... 
The MySQL Server needs to run under a given user account. Based on the security 
requirements of your system you need to pick one of the options below. 


@ ‘standard System Account 
Recommended for most scenarios. 


© Custom User 
An existing user account can be selected for advanced scenarios 


图 6.15 设置 Windows 服务 的 名 称 
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(16) 本 书 直接 采用 默认 的 Windows 服务 名 称 “MySQL57”, 单 击 图 6. 15 
中 的 “Next” 按 钮 ,进入 数据 库 配 置 确认 对 话 框 ,如 图 6.16 所 示 。 


PI 


Bilaysor Installer 


MySQL. Installer Apply Server Configuration 


MySQL Server 5.7.10 


Press [Execute] to apply the changes 
Configuration Steps |tog —| 


© Stopping Server [if necessary] 

O writing configuration file 

O updating firewall 

O Adjusting Windows service [if necessary] 
initializing Database [if necessary] 

O starting Server 

O Applying security settings 

O Creating user accounts 

O Updating Start Menu Link 


图 6.16 数据 库 配置 确认 对 话 框 


C17) 单 击 图 6. 16 中 的 Execute” 按钮 ,使 之 前 的 设置 生效 。 最 后 , 单 击 图 
6. 17 所 示 对 话 框 中 的 "Finish” 按 钮 ,完成 数据 库 的 配置 。 


国 xysaL Installer 


MySQL. Installer Apply Server Configuration 


The configuration operation has stopped. 
Configuration Steps |tog | 
© stopping Server [if necessary] 
© writing configuration file 
© Updating firewall 
© Adjusting Windows service [if necessary] 
© initializing Database [if necessary] 


© Starting Server 

© Applying security settings 
© Creating user accounts 
( Updating Start Menu Link 


Configuration for MySQL Server 5.7.10 has succeeded. Please dick Finish to 
continue. 


图 6.17 完成 数据 库 配 置 


回 到 电脑 桌面 ， 
5. 7” >“MySQL5. 7 
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弹出 图 6. 19 所 


m 
如 


il 
ly 


mem 


|o v PPS 


ub 


显示 图 6. 20 所 


ySQL 5.7 Command Line Client 


[Enter passuord 
|Uelcome to the 


Your MySQL connection id is 8 
Server version: 


|Copyright (c) 2000, 2015, Oracle and/or its affiliates. All rights reserved 


[Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 
owners 


;' or '\h' for help. Type '\c' to clear the current input statement. 


这 样 ,我 们 就 以 


7 MySQL 5.7 Command Line Client p = ni x] 


Enter password: ~ 


至 此 ,MySQL 数据 库 安装 .配置 完毕 。 

(18) 建立 存储 数据 的 数据 库 ， 并 进行 远程 访问 授权 。 经 过 前 面 17 个 步骤 
的 安装 与 配置 ,我 们 搭建 好 了 “房子 ”的 框架 。 接 下 来 ,我 们 “装修 该 房子 ”, 并 分 
出 一 个 具体 的 ” 房间 ”( 数 据 库 ) 来 存储 建 模 所 的 数据 。 


Wd; JE" >“ AR BRIE” > “MySQL” MySQL Server 
Command Line Client", 如 图 6. 18 所 示 。 

| 游戏 
计算 机 


控制 面板 


设备 和 打印 机 


图 6.18. 启动 MySQL 脚本 


示 的 对 话 框 ,输入 数据 库 配置 阶段 设置 的 密码 admin 


图 6.19 输入 数据 库 配置 阶段 设置 的 密码 
示 内 容 , 表 明 数 据 库 连 接 成 功 . 


MySQL monitor. Commands end with ; or \g 


5.7.10-10g MySQL Community Server (GPL) 


图 6.20 链接 MySQL 


超级 用 户 身份 登录 了 MySQL 数据 库 服务 器 。 下 一 步 是 建 


立 存储 建 模 所 需 数据 的 数据 库 , 我 们 命名 为 creditrisk。 在 图 6. 20 中 的 光标 后 ， 


输入 “create databas 


据 库 建设 完成 。 这 村 


e creditrisk;”, 并 按 回 车 键 , 返 回 图 6. 21 所 示 信 息 , 表 明 数 
,我 们 就 建立 了 专门 存放 模型 开发 所 需 数据 的 数据 库 , 数 据 


FEY BRA“ creditrisk", 


接 下 来 我 们 为 远 


程 访问 该 数据 库 进 行 授 权 , 假 设 需要 远程 访问 该 数据 的 机 


SATS FA RE v AB 89 cp 


Enter password: seo 
Welcome to the MySQL monitor. Commands end with ; or \g. 
Nour MySQL connection id is 8 


Server version: 5.7.10-log MySQL Community Server (GPL) 


copyright (c) 2000, 2015, Oracle and/or its affiliates. All rights reserved 


Oracle is a registered trademark of Oracle Corporation and/or its 


affiliates. Other names may be trademarks of their respective 
owners. 


Type 'help;' or '\h' for help. Type ‘\c’ to clear the current input statement. 


mysql> create database creditrisk; 
Query OK, 1 row affected (0.00 sec) 


mysql> 


图 6.21 建立 "creditrisk” 数 据 库 


器 IP 地 址 为 "10. 8. 3. 117”, 则 可 用 如 下 SQL 脚本 实现 授权 : 
grant all on *.* to 'test' @'10.8.3.117' identified by 'admin'; 


该 句 SQL 脚本 的 意思 是 授权 “1( 3.117” 这 台 机 器 ,以 用 户 名 “test”、 密 
44“ admin” 访问 数据 库 , 返 回 如 图 6. 22 所 示 示 的 内 容 , 表 明 授 权 成 功 。 


EEE MySQL 5.6 Command Line Client - [El xJ 
Enter password: xxxxx 可 
Welcome to the MySQL monitor Commands end with or \g 

Your MySQL connection id is 16 

Server version: 5.6.24-log MySQL Community Server (GPL) 


Copyright (c) 2006, 2015, Oracle and/or its affiliates. All rights reserved 


Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other nam nay be trademarks of their respective 
owners 


Type 'help;' or '\h' for help. Type '\c' to clear the current input statement 


mysql> grant all on x.x to 'test'8'10.8.3.117' identified by ‘admin 
Query OK, 8 rows affected (0.02 sec) 


mysql> 
图 6.22 远程 访问 授权 


在 图 6. 22 中 输入 命令 : quit, 并 按 回 车 键 退出 MySQL 服务 器 。 
至 此 ,数据库 “creditrisk” 和 远程 访问 授权 均 建 设 完毕 。 

(19) 获取 安装 MySQL Server rue 的 网 址 ,方法 如 下 : 

回 到 Windows 桌面, 单 击 "开始 >“ 输入 cmd" Fl 4e" n e 6. 23 所 示 。 


图 6.23 打开 命令 行 对 话 框 


弹出 图 6. 24 所 示 对 话 框 ,并 输入 “ipconfig”, 按 回 车 键 ,获取 数据 库 服务 器 


Ry S B BAK Ree xp nM D 


aH uod 


Hot 


m 
x 


76 


AY IP 地 址 。 图 6.24 的 输出 结果 表明 ,IP 地 址 为 “10. 8. 16. 210", 


stea32Ncad- exe 


fe89: :740f:42be:c269:a14%12 
10.8.16.210 

255.255.252.0 

10.8.16.1 


图 6.24 获取 本 机 IP 地 址 对 话 框 


建立 远程 连接 时 ,可 在 安装 MySQL Server 的 机 器 上 ,也 可 放 在 其 他 任意 
台电 脑 上 ,但 都 必须 牢记 安装 MySQL Server 的 机 器 上 的 IP 地 址 (10. 8. 16. 


2100! 至 此 ,数据 库 和 远程 访问 授权 均 配 置 成 功 。 在 接 下 来 的 章 


En. 

(20) 安装 Python 连接 MySQL A 4f Fe AY 
& pymysql。 回 到 Windows 5& fil. fit“ JF t 
— Anaconda3 (32-bit) — Anaconda Prompt, 如 
到 6. 25 所 示 。 


单 击 图 6.25 中 的 “Anaconda Prompt” K 


M Spyder 


口 。 首 先 输入 “conda install pymysql” Ff f& E 
车 键 ,接着 会 提示 是 否 继 续 


yymysql 包 的 安装 。 


季 中 ,我 们 将 使 


H Python 来 自动 获取 相关 数据 并 存 入 数据 RD Anconces G2-b0 
Anaconda Navigator 


Anaconda Prompt 


Jupyter Notebook 


Reset Spyder Settings 


标 , 即 可 弹出 图 6. 26 所 示 的 Windows Shell fj [8 6.25 启动 Anaconda Prompt 


安装 pymysql, 输 入 “y” 并 按 回 车 键 , 即 可 完成 


(21) 通过 Wind 代码 生成 器 (WindNavigator) 自动 生成 部 分 代码 。 找 到 


Wind 安装 路 径 , 本 书 以 “F:\Wind\Wind. NET. Client\ WindNE 
如 图 6. 27 所 示 。 


双击 图 6. 27 中 的 “WindNavigator. exe” 可 执行 文件 ,弹出 图 
码 生 成 器 窗口 ,并 选择 编程 语言 为 Python 。 


T\ bin” Jy zr fi. 


6. 28 所 示 的 代 
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Be oe ABT Bg dp 


i 


gjconda install p 


ment F: 


TALLED: 


anaconda: F 2 18b40cde_0 


cond 4.3.3 y36 0 
»fdb8c3 0 


ceed 


onda-cu 
6 


[ FAWind\Wind.NET.Client\WindNET\bin| 


名 称 

国 regsvr32.exe 

E Repair&xexe 

E wsoxexe 

ff wim.exe 

国 WindCrashReport.exe 
加 windEclsexe 
加 windNErexe 

@ WindUpdate.exe 
WITexe 

E wmain.exe 


图 6.27 Wind 代码 生成 器 (WindNavigator) 


代码 生成 器 
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(22) 获取 指定 板块 基础 数据 的 Python 代码 。 在 打开 的 代码 生成 器 窗口 
中 , 单 击 “ 数 据 集 ”, 会 弹出 数据 集 对 话 框 ,如 图 6. 29 所 示 。 


[. T p 
Ld m ww mem 
Python [=] “na Al SBER exam SRE RERS d. 
[x e — HH 2018-04-08 z 
| | sedorid titid 2001010100... $A £ 
| 
| 
ELI 
eza EI 
Bm date 
Z winds wind code 
Maret sec name 
| 
Heer 


图 6.29 数据 集 对 话 框 


单 击 “板块 id” 的 编辑 按钮 ,弹出 “参数 设置 "对 话 框 。 选 中 需要 获取 板块 数 
据 的 名 称 , 此 处 以 获取 民营 企业 (信用 债 ) 为 例 , 单 击 “ 确 定 ” 按 钮 ,如 图 6. 30 
所 示 。 


参数 值 参数 值 释义 。“ 编 .… 
2018-04-08 
a001010100..。 全 部 A 股 


| 外 信用 信 申 万 行业 

| 由 信用 债 WIND 行 业 

| 由 中 期 票据 WIND 行 业 
| 由 短期 融资 券 WIND 行 业 
| 申 企业 俩 WIND 行业 

| STEEP 


B 
由 SA ELEME) 
集体 企业 (信用 俩 ) 
-公众 企业 (信用 人 局) 
|| HEMOS 
由 信用 售 地 域 分 类 
由 信用 债 证监 会 辖区 
由 信用 债主 承销 商 
GASRAEESEEELR 
由 资产 证 券 化 
由 标准 俩 关 远 其 v 


< 支持 板块 拼音 首 字母 、 板 块 ID 搜 索 > 


图 6.30 指定 数据 集 的 板块 


选择 “直接 运行 ”, 并 单 击 “ 确 定 ” 按 钮 ,如 图 6. 31 所 示 。 
单 击 图 6. 31 中 的 “确定 ”按钮 后 ,会 自动 生成 获取 选 定 板块 数据 的 Python 
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A | | seam 中 文 名 称 


date 日 期 


sedorid iid 


EXC 
2018-04-08 


SREB 编 .- 


P 3 
pa 


ELIT 


> 


英文 名 称 
date 

wind code 
Sec_name 


运行 设置 
Om 


箱 出 交 量 名 


证 券 代码 列表 FEIR 


时 间 列表 


|w wset codes 


[w _wset fields 


w_wset times 


w_wset_errorid 


图 6.31 选择 “直接 运行 ” 


代码 ,并 输出 这 些 代码 的 运行 结果 ,如 图 6. 32 所 示 。 
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图 6. 32 


自动 生成 代码 并 输出 其 运行 结果 


Kp D AN 


e 


mkv EB WAN RARO Ap DP at 入 


SE oh as uod 


E 


(23) 使 用 Wind Python 插件 (WindPy) 获 取信 用 债 发 行 主体 的 代码 和 公司 
名 称 , 以 便 后 续 使 用 这 些 基 础 数据 抓 取 其 他 建 模 所 需 数 据 。 首先 ,需要 安装 
WindPy 插件 。 打 开 Wind 资讯 金融 终端 , 单 击 “ 量 化 ”一 “修复 插件 ”一 “修复 
Python 接口 ”, 如 图 6. 33 所 示 。 


ELED wo | RHEE 

行情 报价 
aR | 交易 机 会 | 板块 报价 | 综合 排名 
ames | nism 
PRREGAR 1 
LL 2 
REREGAR 7 


用 户 管理 员 权限 
Rie ERERPUR 


HEASSRECOEREOXS 
注册 接口 担 件 成 功 


Python 软件 校 验 
Python 已 安装 ， 版 本 和 路 径 符合 要 求 


Python 接口 配置 
ESiPythonfeC1g5. zr [ erem |= n 


6.34 完成 安装 WindPy 插件 
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# 因 数据 量 太 大 ,分 段 读 取 数 据 , 提 升 效率 

bond list-pd.DataFrame() 

slice size-100 # 每 段 读 取 100 只 债券 代码 

n=int (len (bond codes)/slice _size)# 将 所 有 代码 分 为 n+1 段 


for i in range(n): 
print (i) #4) EU it 24 Bi 4k HC JL Be HE 
code_list=bond_codes [int (i* slice_size):int((i+1) * slice 
size)] 
codes-",".join(code list) 
w wss data-w.wss(codes,'sec name,comp name')f 调用 Wind 函数 获 
取 数 据 
print(codes)# 打 印 出 当前 段 的 债券 代码 
if w wss data.ErrorCode !=0: 
print(w wss data) 
break 
mm=np .mat(w_wss_data.Data)# 将 获取 的 数据 封装 成 矩阵 
df-pd.DataFrame (mm.T, columns-w wss data.Fields) 
df['CODE']-w wss data.Codes 
bond list-bond list.append (df)# 拼 接 已 经 打印 的 债券 代码 


print('Final') 

code list-bond codes [int(n* slice size):len (bond codes)] 

codes-",".join(code list) 

w wss data-w.wss(codes,'sec name,comp name')f 抓 取 剩余 部 分 (第 n+ 1 
段 ) 的 数据 

print (codes) 

if w_wss_data.ErrorCode !=0: 

print (w_wss data) 

mm-np.mat(w wss data.Data) 

df-pd.DataFrame (mm.T, columns-w wss data.Fields) 

df['CODE']-w wss data.Codes 

bond list-bond list.append (df) 

bond list.index-range (len (bond list)) 


return bond list # 返 回 所 有 打印 的 债券 代码 


HHHEEHHREEREEE Start FREER HEE EEE E ERE FH 

w.start() # 启 动 WindPy 插件 

bond_list=get_bond_list() # 调 用 函数 抓 取 债券 代码 和 发 行 主体 公司 名 称 列表 
distinct company list=pd.DataFrame () 

distinct company list-distinct company list.append (bond list.loc 
[0,1) 


obi Ae STOP BA 


# 因 存在 一 个 主体 发 行 多 只 债券 的 情况 ,为 避免 获取 重复 的 数据 ,此 处 按照 公司 名 称 去 重 


for i in range(len(bond_list)): 


if bond list.COMP NAME[i] in list (distinct_company_list.COMP_ 
NAME): 
continue 
else: 
distinct company list-distinct company list.append (bond 
i3st.locíi;]) 


deldistinct company list["SEC NAME"] 
# 配 置 数 据 库 链 接 
engine= create engine ("mysql + pymysql://test: admin@10.8.16.210: 
3306/creditrisk?charset=gbk") 
distinct company list.to sql(name-'distinct company list', con= 
engine, if exists-'replace', index-False, index label-False)f 将 抓 取 
的 数据 ,直接 保存 到 MySQL 数据 库 
w.stop ()# 关 闭 WindPy 插件 


本 节 重 点 介绍 抓 取 债券 代码 和 公司 名 称 的 原理 和 技术 ,在 接 下 来 的 章节 中 


我 们 将 详细 介绍 使 用 已 经 抓 取 的 这 些 债券 代码 和 公司 名 称 来 抓 取 相 关 的 财务 数 
据 ,并 进行 统计 检验 。 


6.2 财务 数据 对 违约 状态 影响 弱 显 著 
及 Python 源 代 码 


本 节 重 点 介绍 使 用 财务 数据 检验 其 对 违约 状态 的 影响 是 否 显著 的 方法 , 主 


要 包括 三 部 分 : 抓 取 违 约 债券 列表 并 标记 为 1; 抓 取 非 违约 民营 企业 信用 债 发 行 
主体 的 财务 数据 并 标记 为 0; 计算 财 务 数据 对 违约 状态 影响 的 P-Value, 详 细 代 
码 如 下 所 示 。 


# 载 人 所 需 的 Python f 

from WindPy import w 

import pandas as pd 

import numpy as np 

import statsmodels.api as sm 

# 启 动 windPy 插件 

w.start() 

# 抓 取 违 约 债券 列表 和 公司 
wsetdata=w.wset ("sectorconstituent", "date=2018- 04- 01; sectorid- 
1000022486000000")# 获 取 全 部 违约 债券 代码 
code list=wsetdata.Data[1] 
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codes-code list[0] 


for code in code list[1:]: 
codes=codes+','+code 
# 使 用 获取 的 违约 债券 代码 , 抓 取 公 司 名 称 


w_data=w.wss (codes, "comp name") 


comp name data-pd.DataFrame() 

comp name data['CODE']-w data.Codes 

comp name data['COMP NAME']-w data.Data [01 

comp name data['TARGET']-1 # 将 违约 公司 标记 为 1 

# 因 存在 一 个 公司 发 行 多 只 债券 的 情况 ,为 了 避免 重复 获取 数据 , 先 删除 重复 的 公司 
unique comp-comp name data.drop duplicates (('COMP NAME']) 4 Àl REZ 
的 公司 ,只 保留 第 一 个 

unique comp.index-range (len (unique_comp) ) 

# 抓 取 所 有 民营 企业 债券 和 公司 

bond data=w.wset ("sectorconstituent","date=2018- 04- 01; sectorid= 
1000004555000000")# 获 取 所 有 民营 企业 信用 债 

#bond_code_dup=pd.DataFrame [0] 

# bond code dup['CODE']-bond data.Data[1] 

*bond code no dup-bond code dup.drop duplicates () 


bond list-bond data.Data[1] 

bonds-bond list[0] 

# 获 取 非 违约 民营 企业 债券 的 代码 

for bond in bond_list[1:]: 
bonds=bonds+','+bond 

# 使 用 民营 企业 债券 的 代码 , 抓 取 公司 名 称 


w data-w.wss (bonds, "comp name") 


bond name data-pd.DataFrame() 

bond name data['CODE']-w data.Codes 

bond name data['COMP NAME']-w data.Data[0] 
bond name data['TARGET']-0 ##iE# AA mid 0 


# 因 存在 一 个 公司 发 行 多 只 债券 的 情况 ,为 了 避免 重复 获取 数据 , 先 删除 重复 的 公司 
unique bond-bond name data.drop duplicates (['COMP NAME']) 4 Jl REA 
的 公司 ,只 保留 第 一 个 


unique bond.index-range (len (unique bond)) 
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# 将 违约 公司 和 非 违 约 公 司 合并 到 一 个 数据 集 


for i in range(len(unique_ bond) ): 


pow 


if unique bond.loc[i,'COMP NAME'] in list(unique comp.COMP NAME): 
print (i) 
unique bond.loc[i, TARGET']-1 
company list-unique bond.append (unique comp.loc[-unique comp 
['COMP NAME'].isin(list(unique bond.COMP NAME))]) 


company list.index-range(len(company list)) 


# 抓 取 上 述 数据 集中 所 有 公司 的 财务 数据 
company codes-list(company list.CODE) 
rptDate list-['20161231']s JE ABX LAHU 2016 年 年 报 的 数据 为 例 
index set-pd.DataFrame() 
slice size-30 # WHAM, UMM 30 家 公司 的 财务 数据 
n-int(len(company codes)/slice size) 
# 抓 取 财 务 数据 
for rptdate in rptDate list: 
print (rptdate) e 
index-0 
for i in range (index,n): 

print (i) 

code list-company codes[int(i* slice size):int((i*1)* slice 
_size)] 

codes=",".join(code_list) 

# 盘 利 能 力 ,收益 质量 ,现金 流量 ,资本 结构 , 偿 债 能 力 , 营 运 能 力 ,规模 效应 

wind_args="rptDate="+ str (rptdate) +"; tradeDate="+ str 
(rptdate)+";rptType=1;unit=1;order=1" 

w wss data=w.wss (codes, 'roe_ basic, operateexpensetogr, roa2, 
operateincometoebt, deductedprofittoprofit, ocftoassets, currentdebttodebt, 
catoassets, ocftodebt, caturn, invturn, net cash flows oper act, 
opprofit,tot oper rev', wind args) 

print (codes) 

if w wss data.ErrorCode !-0: 

print(w wss data) 
fbreak; 

mm-np.mat(w wss data.Data) 

df-pd.DataFrame (mm.T, columns-w wss data.Fields) 

df['CODE']-w wss data.Codes 

df['rptDate']=[rptdate for j in range (len (code list))] 


index set-index set.append (df) 
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print('Final') 
code list-company codes[int(n* slice size):len(company codes)] 
codes-",".join(code list) 
# 盘 利 能 力 ,收益 质量 ,现金 流量 ,资本 结构 , 偿 债 能 力 , 营 运 能 力 ,规模 效应 
wind _args="rptDate="+str(rptdate) +"; tradeDate="+ str (rptdate) +"; 
rptType=1;unit=1;order=1" 
w_wss_data=w.wss (codes, 'roe_basic, operateexpensetogr, roa2, 
operateincometoebt, deductedprofittoprofit, ocftoassets, currentdebttodebt, 
catoassets, ocftodebt, caturn, invturn, net .. cash flows oper act, 
opprofit,tot oper rev', wind args) 
print(codes) 
if w wss data.ErrorCode !-0: 
print(w wss data) 
break; 
mm-np.mat(w wss data.Data) 
df-pd.DataFrame (mm.T, columns-w wss data.Fields) 
df['CODE']-w wss data.Codes 
df['rptDate']=[rptdate for j in range(len(code list))] 


index set-index set.append (df) 
index-0 
index set.index-range(len(index set)) 


# 去 除 空缺 值 过 多 的 指标 
name list-list(index set) 
protect list- ['TOT OPER REV'] 
n-index set.columns.size 
m-index set.iloc[:,0].size 
adjust=0 
for i in range(n): 
data_list=index_set.iloc[:,i -adjust] 
na_count=0 
if name_list[i] in protect_list: 
continue 
for j in range(m): 
if data list[j] !=data_list[j]: 
na count +=1 


if (na count/m)» (1/3) : # 如 果 该 指标 的 缺失 值 大 于 1/3, 删 除 该 指标 


资 和 市 场 壤 用 债 投资 分 三 的 中 国 特色 


del index set[name list[i]] 


adjust *-1 


# 去 除 空缺 值 过 多 的 公司 
n=index_set.columns.size 
m-index set.iloc[:,0].size 
adjust-0 
for i in range (m): 
data list-index set.iloc[i -adjust,:] 
na count-0 
for j in range(n): 
if data list[j] !-data list[j]: 
na count *-1 
if (na count/n)» (1/3): # 如 果 该 公司 的 缺失 值 大 于 1/3, MERTZ A 
index set-index set.drop(i) 


adjust +=1 


index set-index set.loc[-np.isnan(index set['TOT OPER REV'])] 


index set . index= range (len (index set)) 


# 填充 缺失 值 


complete set-pd.DataFrame() 


for rptdate in rptDate list: 
print(rptdate) 
data set-index set.loc[index set['rptDate'] --str(rptdate)] 
boundarys- [data set['TOT OPER REV'].quantile(0),data set['TOT 
OPER REV'].quantile(0.25), 
data set['TOT OPER REV'].quantile(0.5),data set 
['TOT OPER REV'].quantile(0.75), 
data set['TOT OPER REV'].quantile(1)] 
# 将 所 有 样本 按照 营业 收入 的 四 分 位 数 ,分 为 大 型 .中 大 型 .中 型 ,小 型 公司 
part 1-data set[data set['TOT OPER REV']«-boundarys[11] 
part 2-data set[data set['TOT OPER REV']»boundarys[1]] 
part 2-part 2[part 2['TOT OPER REV']«-boundarys [21] 
part 3-data set[data set['TOT OPER REV']»boundarys[21] 
part 3-part 3[part 3['TOT OPER REV']«-boundarys [31] 
part 4-data set[data set['TOT OPER REV']»boundarys[31] 


n-part l.columns.size 
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# 如果 一 个 公司 属于 大 型 公司 , 且 出 现 了 缺失 值 , 则 用 其 他 大 型 公司 该 指标 的 平均 
数 填充 该 缺失 值 ;其 他 类 型 的 公司 ,以 此 类 推 。 
part 1 means-part l.iloc[:,:(n-3)].describe().mean() 
part 2 means-part 2.iloc[:,:(n-3)].describe().mean() 
part 3 means-part 3.iloc[:,:(n-3)].describe().mean() 
part 4 means-part 4.iloc[:,:(n-3)].describe().mean() 
for i in range (n-3): 
#i=4 
data_list=list (part_1.iloc[:,i]) 
for j in range(len(part_1)): 
#j=1 
if np.isnan(data_list[j]): 


part l.iloc[j,i]-part 1 means [i] 


data list-list(part 2.iloc[:,i]) 


for j in range(len(part 2)): 
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#j=1 


if np.isnan(data_list[j]): 


part 2.iloc[j,i]-part 2 means[i] 


data list-list(part 3.iloc[:,i]) 
for j in range(len(part 3)): 
#j=1 
if np.isnan(data_list[j]): 


part 3.iloc[j,i]-part 3 means[i] 


data list-list(part 4.iloc[:,il]) 
for j inrange(len(part 4)): 
#j=1 


if np.isnan(data list[j]): 


part 4.iloc[j,i]-part 4 means[i] 


data set-part l.append(part 2).append(part 3).append(part 4) 


complete set-complete set.append(data set) 


complete set.index-range(len(complete set)) 


*P-Value 计算 ,统计 财务 指标 对 违约 状态 影响 的 显著 性 
col list-list (complete_set.columns) 


X=np.array(complete_set.loc[:,col_list[:-3]]) 


obi Fae ST db A (e. 


marked set-complete set.merge (company list,how-'left', on=['CODE']) T 
marked set-marked set.fillna(0) * 
y-np.array (marked set.TARGET) 

X2-sm.add constant (X) 

est-sm.OLS(y, X2) 

est2-est.fit() 


print (est2.summary() )# 输 出 统计 结果 检验 概述 ,如 图 6.35 所 示 


In [559]: print(est2.summary()) 
OLS Regression Results 


Dep. Variable: y  R-squared: 0.067 
Model: OLS Adj. R-squared: 9.052 
Method: Least Squares — F-statistic: 4.644 
Date: Mon, @9 Apr 2018 Prob (F-statistic): 7.23e-07 
Time: 15:01:23  Log-Likelihood: 327.01 
No. Observations: 726 AIC: -630.0 
Df Residuals: 714 BIC: -575.0 
Df Model: 11 
Covariance Type: nonrobust 

coef std err t P»|t| [95.0% Conf. Int.] 
const 0.0888 9.025 3.553 9.000 0.040 0.138 
x1 -0.0017 0.000 -3.712 0.000 -0.003 -0.001 
x2 -0.0041 9.001 -5.839 0.000 -0.005 -0.003 
x3 -5.697e-05  4.73e-05 -1.203 0.229 -0.009  3.6e-05 
x4 5.513e-06 9.001 6.008 0.993 -0.001 0.001 
x5 0.0001 9.000 9.311 9.756 -0.001 9.001 e 
x6 -0.0004 0.000 -1.181 0.238 -0.001 0.000 
x7 0.0022 9.007 9.338 9.741 -0.011 9.015 
x8 -0.0052 0.007 -0.717 0.474 -0.020 6.009 
x9 5.539e-07 — 1.43e-05 9.039 9.969 -2.76e-05 2.87e-05 
x10 7.071e-13  2.36e-12 9.300 8.764 -3.92e-12 5.33e-12 
x11 -3.486e-12  2.84e-12 -1.229 9.219 -9.06e-12 2.08e-12 
Omnibus: 798.993 — Durbin-Watson: 9.904 
Prob(Omnibus) : 0.000  Jarque-Bera (JB): 32473.690 
Skew: 5.507 Prob(JB): 0.08 
kurtosis: 33.858 Cond. No. 1.54e+10 


图 6.35 统计 结果 检验 概述 


print (list (est2.pvalues))# 输出 各 指标 的 P-value, WA 6.36 所 示 


In [562]: list(est2.pvalues) 

Out[562]: 

[@.@0040516259027454174, 
0.00022171471179346344, 
7.9587125991888631e-09, 
@.22918841456767256, 
0.99337130889183578, 
@.75585473444609344, 
@.23807262329235998, 
@.74127577795974942, 
@.47352032761992957, 
.96921098632943936, 
0.76410974205413162, 
@.21949317796846091] 


图 6.36 输出 各 指标 的 P-Value 
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从 图 6. 36 的 输出 结果 可 见 , 所 有 的 人 模 指标 中 只 有 前 3 个 指标 的 P- Value 
是 小 于 0. 05 的 ,也 就 是 说 只 有 前 3 个 指标 对 违约 状态 的 影响 是 显著 的 。 其 他 的 
指标 ,分 别 属于 指标 大 类 中 的 现金 流量 资本 结构 、 偿 债 能 力 、 营 运 能 力 、 规 模 效 
应 五 类 ,这 些 类 别 的 指标 对 违约 状况 的 影响 不 显著 。 这 也 充分 说 明了 ,目前 国内 
企业 粉饰 财报 的 现象 比较 普遍 ,仅仅 从 财务 数据 本 身 无 法 真实 有 效 地 评估 企业 
的 信用 风险 。 


6.3 场 外 数据 对 违约 状态 影响 强 显 著 
及 Python 源 代 码 


由 5.2 节 中 介绍 的 应 对 企业 财务 数据 粉饰 的 解决 方案 中 的 方法 ,我 们 通过 
采用 场 外 的 司法 .招聘 、 场 外 融资 .存量 债券 的 到 期 收益 率 等 真实 信息 ,可 有 效 预 
测 企业 的 真实 信用 风险 。 

由 于 这 些 场 外 真实 信息 的 获取 需要 较 强 的 IT 技能 ,如 需要 强大 的 和 爬 虫 团 
队 来 息 去 司法 、 招 聘 和 场 外 融资 等 的 数据 ,然后 需要 将 这 些 候 取 的 非 结构 化 数据 
通过 大 量 的 文本 挖掘、 算法 处 理 等 数据 预 处 理 技术 来 提取 备 选 的 入 模 指 标 ,本 书 
就 不 详 述 这 些 场 外 数据 的 抓 取 和 预 处 理 方式 了 。 此 处 , 仅 以 少量 作者 实战 模型 
开发 中 的 样本 作为 测试 样本 ,来 演示 场 外 数据 对 违约 状态 影响 的 显著 程度 。 样 
本 总 体 共计 119 个 ,其 中 违约 样本 20 个 、 非 违约 样本 99 个 。 


# 载 人 显著 性 检验 所 需 的 Python fi 

import pandas as pd 

import numpy as np 

import statsmodels.api as sm 

# 读 取 数 据 

data_set=pd.read excel ("company data.xlsx") 
X=np.array(data_set.iloc[:,1:]) 
y=np.array(data_set.Target) 

# 计 算 P- value 

X2=sm.add_constant (X) 

est-sm.OLS(y, X2) 

est2-est.fit() 

print (est2.summary () )# 输 出 统计 结果 检验 概述 ,如 图 6.37 所 示 
list(est2.pvalues) # 输出 各 指标 的 P-Value, 如 图 6.38 所 示 


由 图 6. 38 所 示 各 指标 的 P- Value 检验 结果 可 知 ,基本 所 有 这 些 场 外 指标 均 
小 于 0. 05, 也 就 是 说 这 些 场 外 数据 对 违约 状态 的 影响 是 非常 显著 的 。 与 图 6. 36 
财务 数据 的 检验 结果 相 比 , 场 外 数据 对 违约 状态 的 影响 明显 要 显著 很 多 。 
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==== 二 一 = 1 
Dep. Variable- y R-squared: 0226 i 
Model: OLS Adj R-squared: 0.184 H 
Method: Least Squares F-statistic 5.400 = 
Date: Wed, 11 Apr 2018 Prob (F-statistic): 6.28e-05 ! 
Time: 181733  Log-Likelihood: -36.644 1 
No. Observations 118 AC: 8729 i 
Df Residuals: 111 BIC 1067 1 
Df Model 6 1 
1 
| 
std err t P»ltl [0.025 0.975] ; 
m——————— —Ó———— ÓSPIMM—G 1 
const 0.1250 0.034 3.654 0.000 0.057 0.193 i 
xi 0.0442 0.023 1895 0.061 -0.002 0.090 i 
x2 -0.2978 0.097 -3.086 0.003 -0.489 -0.107 1 
x3 0.0107 0.006 1792 0.076 -0.001 0.023 i 
x4 -0.2067 0.081 -2551 0.012 -0.367 -0.046 1 
1 
1 
1 
1 
i 
Omnibus: 44.462  Durbin-Watson: 1534 oP 
Prob(Omnibus): 0.000  Jarque-Bera (JB): 79.619 
Skew: 1762  Prob()B) 5.14e-18 
Kurtosis: 4942 Cond. No. 4.89e*15 


图 6.37 统计 结果 检验 概述 


[0.00039584022755041574, 
.060728360566948525, 
0.002564697861792406, 
0.075851803846473151, 
0.012108065107112084, 
e 
e 
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.011417665644805496, 
.0015553700647225254, 
0.075851803846474705] 


图 6.38 输出 各 指标 的 P-Value 


6.4 财务 粉饰 的 本 福特 法 则 统计 识别 法 
及 Python 源 代码 


本 福特 法 则 是 由 英国 物理 学 家 本 福特 因 发 现在 一 些 自 然 数据 源 中 各 数字 的 
首位 数字 出 现 的 频率 不 满足 均匀 分 布 而 闻名 的 。 其 基本 内 容 是 在 自然 数据 源 
(如 信用 卡 账单 .采购 记 录 、 财 务 报表 等 ) 生 成 的 数字 中 , 约 有 30% 的 数字 的 首位 
数字 是 1; 首 位 数字 为 2 的 数 约 有 18% ;顺序 递减 ,首位 数字 为 9 的 数 少 于 5%。 
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精确 的 数学 表述 为 : dk b 进位 制 中 ,以 数 n 开头 的 数字 出 现 的 频率 满足 式 (6. 
1) ,数字 1 一 9 出 现 的 理论 频率 如 表 6. 1 所 示 。 
F(n) = log; (n+ 1) — log, (n) (6, 1) 


56.1. 数字 1~9 出 现 的 理论 频率 


频率 


0.058 


其 实 , 本 福特 法 则 的 理论 统计 结果 ,也 可 用 我 们 日 常生 活 中 的 例子 解释 ， 
例如 : 

CD 图 书馆 里 大 部 分 书 的 头 几 页 通常 比较 脏 。 因 为 许多 到 图 书馆 看 书 的 人 
大 多 只 是 看 书 的 开头 ,不 喜欢 的 话 就 不 会 再 看 下 去 了 ;把 一 本 书 完整 看 完 的 人 比 
较 少 。 

(2) 数学 书后 的 对 数 表 、 化 学 书后 的 一 些 化 学 常数 .财务 课本 后 的 终 值 、 现 
值 系 数 表 等 ,我 们 查阅 的 数据 大 多 在 头 几 页 里 面 。 

如 果 统 计 的 数据 足够 多 ,我 们 会 发 现 ,开头 是 数字 1 的 数据 最 多 ,大 约 占 了 
所 有 数据 的 1/3; 开 头 是 数字 2 的 数据 居于 其 次 ;: 剩 下 的 数字 的 数量 依次 递减 。 
人 口 .死亡 率 、 物 理 和 化 学 常数 、 棒 球 统计 表 、 半 衰 期 放射 性 同位 数 、 物 理 书 中 的 
答案 .素数 数字 以 及 斐 波 纳 契 数列 数字 中 均 有 这 一 定律 的 身影 。 换 名 话说 ,只 要 
是 由 度量 单位 制 获得 的 数据 都 符合 本 福特 法 则 ,因此 本 福特 法 则 又 称 为 “第 一 数 
字 定 律 ”。 

但 有 些 情 况 不 适用 这 个 定律 ,这 些 数 字 大 多 是 比较 随意 的 ,或 者 是 任意 指 
的 ,是 一 些 受 限 数据 而 不 是 由 度量 单位 制 获得 的 。 例 如 彩票 数字 电话 号 码 、 S 
期 和 一 组 人 的 体重 或 者 身高 数据 。 

本 福特 法 则 在 企业 财报 粉饰 方面 得 到 了 良好 的 应 用 ,可 大 概率 识别 出 企业 
可 能 存在 的 财务 造假 现象 。 因 为 如 果 做 假 账 的 人 更 改 了 账本 上 真实 的 数据 ,就 
会 使 账本 上 数字 出 现 的 频率 发 生变 化 ,从 而 偏离 “本 福特 定律 ”。 通 常情 况 下 ,在 
那些 假 账 中 ,数字 5 和 6 是 最 常见 的 开头 数字 ,而 不 是 符合 定律 的 数字 1, 这 就 
表明 伪造 者 试图 在 账目 中 间 “ 隐 藏 ”数据 。 最 为 典型 的 就 是 美国 安然 公司 “ 假 账 ” 
事件 。2001 年 曾 是 美国 最 大 的 能 源 交 易 商 、 年 营业 收入 近 千 亿美 元 、 股 票 市 值 
700 多 亿美 元 .世界 500 强 中 排名 第 七 的 安然 公司 突然 宣布 破产 ,当时 传 出 了 该 
公司 高 层 管理 人 员 涉 嫌 做 假 账 的 丑闻 。 一 时 间 ,会计 造假 成 了 中 外 关注 的 焦点 。 
事后 人 们 发 现 安然 公司 在 2001 年 度 到 2002 年 度 所 公布 的 财务 数据 不 符合 “本 
福特 法 则 ”, 这 些 数 字 的 使 用 频率 与 这 一 定律 有 较 大 的 偏差 ,这 证 明了 安然 公司 
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但 是 , 随 着 信息 技术 的 不 断 进步 ,很 多 财务 造假 者 对 该 法 则 越 来 越 熟悉 , 粉 
饰 财报 的 手法 也 越 来 越 高 明 , 采 用 该 法 则 识别 财务 粉饰 的 难度 也 逐渐 加 大 。 例 
如 ,在 本 节 如 下 的 统计 计算 结果 中 ,已 经 出 现 财务 危机 的 “ 乐 视 网 ” 的 本 福特 评分 
却 是 处 于 财报 优秀 行列 。 已 经 出 现 债券 违约 的 发 行 主体 的 本 福特 评分 基本 处 于 
较 低 得 分 ,这 也 说 明 本 福特 法 则 的 统计 结果 还 是 有 一 定 参考 价值 的 。 我 们 需要 
强调 的 是 财报 粉饰 不 一 定 可 以 直接 造成 违约 ,企业 违约 是 由 多 方面 因素 共同 作 
用 引起 的 ,财报 粉饰 可 能 只 是 其 中 的 一 个 因素 。 

本 节 分 为 三 部 分 详 述 本 福特 法 则 的 统计 计算 和 评分 过 程 ,第 一 部 分 是 信用 
债 发 行 主体 财务 相关 数据 的 抓 取 ,第 二 部 分 是 本 福特 法 则 的 统计 计算 ,第 三 部 分 
是 使 用 本 福特 法 则 的 统计 结果 对 每 家 公司 的 财务 状况 进行 评分 。 

第 一 部 分 ,信用 债 发 行 主 体 财务 相关 数据 的 抓 取 ,Python 代码 如 下 所 示 。 


# 抓 取信 用 债 发 行 主体 的 财务 数据 (资产 负债 表 、 现 金 流量 表 、 利 润 表 ) ,并 写 入 数据 库 
# 载 人 抓 取 数据 所 需 的 Python 包 

from WindPy import w 

import pandas as pd 

import numpy as np 


from sqlalchemy import create engine 


# 抓 到 资产 负债 表 科目 的 所 有 数据 
def get_balance (company codes): 
# 因 数据 量 太 大 ,分 段 读 取 数 据 , 提升 效率 
rptDate list = ['20161231', ' 20151231 ", ' 20141231 ', ' 20131231 ", 
'20121231']# 抓 取 最 近 5 年 数据 
index set-pd.DataFrame() 
slice size-30 ##KMM 30 家 公司 
n-int(len(company codes)/slice size) 
# 逐 年 遍历 抓 取 资 产 负债 表 数据 
for rptdate in rptDate_list: 
print (rptdate) # 打 印 抓 取 哪 一 年 的 数据 
index=0 
for i in range (index,n): 
print (i) 
code list-company codes [int (i* slice_size):int((i+1) * 
slice size)] 
codes-",".join(code list) 
S 获取 资 产 负 债 表 科目 的 所 有 数据 
wind_args="rptDate="+ str (rptdate) +";tradeDate="+str 


(rptdate)+";rptType=1;unit=1;order=1" 
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w_wss_data=w.wss (codes, 'comp_name, monetary_cap,tradable_ 
fin_assets, notes_rcv, acct_rcv, oth_rcv, prepay, dvd_rcv, int_ rcv, 
inventories, consumptive bio assets,deferred exp,hfs assets,non cur 
assets due within ly,settle rsrv,loans to oth banks,margin acct, 
prem rcv,rcv from reinsurer,rcv from ceded insur cont rsrv,red 
monetary cap for sale,tot acct rcv,oth cur assets,tot cur assets, 
fin assets avail for sale,held to mty invest,invest real estate, 
long term eqy invest,long term rec,fix assets,proj matl,const in 
prog,fix assets disp,productive bio assets,oil and natural gas 
assets,intang assets,r and d costs,goodwill,long term deferred 
exp,deferred tax assets,loans and adv granted,oth non cur assets, 
tot non cur assets,cash deposits central bank,agency bus assets, 
rcv invest,asset dep oth banks fin inst,precious metals,rcv ceded. 
unearned prem rsrv,rcv ceded claim rsrv,rcv ceded life insur rsrv, 
rcv ceded 1t health insur rsrv,insured pledge loan,cap mrgn paid, 
independent acct assets,time deposits,subr rec,mrgn paid,seat fees 
_exchange, clients cap deposit, clients rsrv settle,oth assets, 
derivative fin assets,tot assets,st borrow,tradable fin liab,notes 
_payable, acct payable, adv from cust, empl ben payable, taxes . 
surcharges payable,tot acct payable,int payable,dvd payable,oth 
payable,acc exp,deferred inc cur liab,hfs liab,non cur liab due 
within ly,st bonds payable,borrow central bank,deposit received ib 
_deposits, loans oth banks, fund sales fin assets rp, handling . 
charges comm payable,payable to reinsurer,rsrv insur cont,acting 
trading sec,acting uw sec,oth cur liab,tot cur liab,lt borrow, 
bonds payable, lt payable, lt empl ben payable, specific item _ 
payable,provisions,deferred tax liab,deferred inc non cur liab,oth 
.non cur liab,tot non cur liab,liab dep oth banks fin inst,agency 
bus liab,cust bank dep,claims payable,dvd payable insured,deposit 
received,insured deposit invest,unearned prem rsrv,out loss rsrv, 
life insur rsrv,lt health insur v, independent acct liab,prem _ 
received adv,pledge loan,st finl inst payable,oth liab,derivative 
fin liab,tot liab,cap stk,other equity instruments,other equity 
instruments PRE,cap rsrv,surplus rsrv,undistributed profit,tsy 
stk,other compreh inc bs,special rsrv,prov nom risks,cnvd diff 
foreign curr stat,unconfirmed invest loss bs,minority int,egy _ 
belongto_parcomsh, tot_equity,tot_liab_shrhldr_eqy',wind_args) #MM 
资产 负债 表 中 所 有 科目 的 数据 

print (codes)# 打 印 抓 取 公司 的 债券 代码 

if w_wss_data.ErrorCode !=0: 

print (w_wss_ data) 


break; 
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mm-np.mat(w wss data.Data) 

df-pd.DataFrame (mm.T, columns-w wss data.Fields) 

df['CODE']-w wss data.Codes 

df['rptDate']- [rptdate for j in range (len (code list))] 

df.to sql(name-'balance', con-engine, if exists- 'append', 
index-False, index label-False)f 将 抓 取 的 数据 存储 到 数据 库 中 ,数据 库 表 名 
称 为 balance 


print ('Final')# 抓 取 最 后 一 段 的 资产 负债 表 数 据 


code_list=company_codes [int (nx slice size):len(company 


codes) ] 
codes-",".join(code list) 
# 获取 资产 负债 表 科 目的 所 有 数据 
wind _args="rptDate="+ str (rptdate) +"; tradeDate="+ str 


(rptdate)+";rptType=1;unit=1;order=1" 


w_wss_data=w.wss (codes, 'comp_name, monetary cap, tradable __ 


fin_assets, notes _rcv, acct rcv,oth rcv, prepay, dvd rcv,int rcv, 
inventories, consumptive bio assets,deferred exp,hfs assets,non cur 


.assets due within ly,settle rsrv,loans to oth banks,margin acct, 


prem rcv,rcv from reinsurer,rcv from ceded insur cont rsrv,red 


monetary cap for sale,tot acct rcv,oth cur assets,tot cur assets, 


fin assets avail for sale,held to mty invest,invest real estate, 


long term eqy invest,long term rec,fix assets,proj matl,const in. 
prog,fix assets disp,productive bio assets,oil and natural gas 


assets,intang assets,r and d costs,goodwill,long term deferred 


exp,deferred tax assets,loans and adv granted,oth non cur assets, 


tot non cur assets,cash deposits central bank,agency bus assets, 


rcv invest,asset dep oth banks fin inst,precious metals,rcv ceded. 


unearned prem rsrv,rcv ceded claim rsrv,rcv ceded life insur rsrv, 
rcv ceded 1t health insur rsrv,insured pledge loan,cap mrgn paid, 
independent acct assets,time deposits,subr rec,mrgn paid,seat fees 
_exchange, clients cap deposit, clients rsrv settle,oth assets, 


derivative fin assets,tot assets,st borrow,tradable fin liab,notes 


payable, acct payable, adv from cust, empl ben payable, taxes . 
surcharges payable,tot acct payable,int payable,dvd payable,oth 


payable,acc exp,deferred inc cur liab,hfs liab,non cur liab due. 


within ly,st bonds payable,borrow central bank,deposit received ib 


.deposits, loans oth banks, fund sales fin assets rp, handling _ 


charges comm payable,payable to reinsurer,rsrv insur cont,acting 


trading sec,acting uw sec,oth cur liab,tot cur liab,lt borrow, 


bonds payable, lt payable, lt empl ben payable, specific item _ 


payable,provisions,deferred tax liab,deferred inc non cur liab,oth 
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_non_cur_liab,tot_non_cur_liab,liab_dep_oth_banks_fin_inst,agency_ 
bus_liab,cust_bank_dep,claims_payable,dvd_payable_insured,deposit_ 
received,insured deposit invest,unearned prem rsrv,out loss rsrv, 
life insur rsrv,lt health insur v,independent acct liab,prem 
received adv,pledge loan,st finl inst payable,oth liab,derivative 
fin liab,tot liab,cap stk,other equity instruments,other equity 
instruments PRE,cap rsrv,surplus rsrv,undistributed profit,tsy 
stk,other compreh inc bs,special rsrv,prov nom risks,cnvd diff _ 
foreign curr stat,unconfirmed invest loss bs,minority int,egy _ 
belongto parcomsh,tot equity,tot liab shrhldr eqy',wind args) # 抓 取 
资产 负债 表 中 所 有 科目 的 数据 

print (codes) 

if w_wss_data.ErrorCode !=0: 

print(w wss data) 
break; 

mm-np.mat(w wss data.Data) 

df-pd.DataFrame (mm.T, columns-w wss data. Fields) 

df['CODE']-w wss data.Codes 

df['rptDate']- [rptdate for j in range(len(code list))] 

df.to sql(name- 'balance', con-engine, if exi sts-'append', 
index-False, index label-False) 


index=0 


# 抓 取现 金 流量 表 科目 的 所 有 数据 
def get_cashflow (company codes): 
# 因 数据 量 太 大 ,分 段 读 取 数 据 ,提升 效率 
rptDate list- ['20161231','20151231','20141231', '20131231',' 
20121231'] 
index set-pd.DataFrame() 
slice size-30 
n=int (len (company codes)/slice size) 
# 逐 年 遍历 抓 取 现金 流量 表 数 据 
for rptdate in rptDate_list: 
print(rptdate) # 打 印 抓 取 哪 一 年 的 数据 
index=0 
for i in range (index,n): 
print (i) 
code list-company codes[int(i* slice size):int((i+1)* 
slice size)] 
codes-",".join(code list) 
# 获 取现 金 流量 表 科 目的 所 有 数据 


wind_args="rptDate="+str (rptdate) +"; tradeDate="+str 
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(rptdate)+";rptType=1;unit=1;order=1" 

w wss data-w.wss(codes,'comp name,cash recp sg and rs, 
recp tax rends,other cash recp ral oper act,net incr insured dep, 
net incr dep cob,net incr loans central bank,net incr fund borr 
ofi,net incr int handling chrg,cash recp prem orig inco,net cash 
received reinsu bus,net incr disp tfa,net incr disp fin assets 
avail,net incr loans other bank,net incr repurch bus fund,net cash 
from seurities,stot cash inflows oper act,net incr lending fund, 
net fina instruments measured at fmv,cash pay goods purch serv 
rec,cash pay beh empl,pay all typ tax,other cash pay ral oper act, 
net incr clients loan adv,net incr dep cbob,cash pay claims orig. 
inco,handling chrg paid,comm insur plcy paid,stot cash outflows 
oper act,net cash flows oper act,cash recp disp withdrwl invest, 
cash recp return invest,net cash recp disp fiolta,net cash recp 
disp sobu,other cash recp ral inv act,stot cash inflows inv act, 
cash pay acq const fiolta,cash paid invest,net incr pledge loan, 
net cash pay aquis sobu,other cash pay ral inv act,stot cash 
outflows inv act,net cash flows inv act,cash recp cap contrib,cash 
.rec saims,cash recp borrow,other cash recp ral fnc act,proc issue 
.bonds,stot cash inflows fnc act,cash prepay amt borr,cash pay. 
dist dpcp int exp,dvd profit paid sc ms,other cash pay ral fnc 
act,stot cash outflows fnc act,net cash flows fnc act,eff fx flu 
cash,net incr cash cash equ dm,cash cash equ beg period,cash cash. 
equ end period,net profit cs,prov depr assets,depr fa coga dpba, 
amort intang assets,amort lt deferred exp,decr deferred exp,incr 
acc exp,loss disp fiolta,loss scr fa,loss fv chg,fin exp cs,invest 
.loss,decr deferred inc tax assets,incr deferred inc tax liab,decr 
.inventories, decr oper payable, incr oper payable, unconfirmed _ 
invest loss cs,others,im net cash flows oper act,conv debt into 
cap,conv corp bonds due within ly,fa fnc leases,end bal cash,beg 
bal cash,end bal cash equ,beg bal cash equ,net incr cash cash equ. 
im',wind args) 

print (codes) # 打 印 抓 取 公司 的 债券 代码 

if w wss data.ErrorCode !=0: 

print(w wss data) 
break; 

mm-np.mat(w wss data.Data) 

df-pd.DataFrame (mm.T, columns-w wss data.Fields) 

df['CODE']-w wss data.Codes 

df['rptDate']- [rptdate for j in range (len (code list))] 

df.to sql(name-'cashflow', con- engine, if exists-' 


append', index-False, index label-False) # 将 抓 取 的 数据 存储 到 数据 库 中 ， 
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数据 库 表 名 称 为 cashflow 


print('Final') # 抓 取 最 后 一 段 的 资产 负债 表 数 据 

code list- company codes [int (nx slice size):len (company _ 
codes)] 

codes-",".join(code list) 

# 获 取现 金 流量 表 科 目的 所 有 数据 


wind_args="rptDate="+ str (rptdate) +"; tradeDate="+ str 


(rptdate)+";rptType=1;unit=1;order=1" 

W wss data-w.wss(codes,'comp name,cash recp sg and rs,recp 
tax rends,other cash recp ral oper act,net incr insured dep,net 
incr dep cob,net incr loans central bank,net incr fund borr ofi, 
net incr int handling chrg,cash recp prem orig inco,net cash 
received reinsu bus,net incr disp tfa,net incr disp fin assets 
avail,net incr loans other bank,net incr repurch bus fund,net cash 
.from seurities,stot cash inflows oper act,net incr lending fund, 
net fina instruments measured at fmv,cash pay goods purch serv 
rec,cash pay beh empl,pay all typ tax,other cash pay ral oper act, 
net incr clients loan adv,net incr dep cbob,cash pay claims orig. 
inco,handling chrg paid,comm insur plcy paid,stot cash outflows | 
oper act,net cash flows oper act,cash recp disp withdrwl invest, 
cash recp return invest,net cash recp disp fiolta,net cash recp_ 
disp sobu,other cash recp ral inv act,stot cash inflows inv act, 
cash pay acq const fiolta,cash paid invest,net incr pledge loan, 
net cash pay aquis sobu,other cash pay ral inv act,stot cash 
outflows inv act,net cash flows inv act,cash recp cap contrib,cash 
.rec saims,cash recp borrow,other cash recp ral fnc act,proc issue 
.bonds,stot cash inflows fnc act,cash prepay amt borr,cash pay 
dist dpcp int exp,dvd profit paid sc ms,other cash pay ral fnc. 
act,stot cash outflows fnc act,net cash flows fnc act,eff fx flu. 
cash,net incr cash cash equ dm,cash cash equ beg period,cash cash 
equ end period,net profit cs,prov depr assets,depr fa coga dpba, 
amort intang assets,amort lt deferred exp,decr deferred exp,incr 
acc exp,loss disp fiolta,loss scr fa,loss fv chg,fin exp cs,invest 
.loss,decr deferred inc tax assets,incr deferred inc tax liab,decr 
.inventories, decr oper payable, incr oper payable, unconfirmed _ 
invest loss cs,others,im net cash flows oper act,conv debt into 
cap,conv corp bonds due within ly,fa fnc leases,end bal cash,beg 
bal cash,end bal cash equ,beg bal cash equ,net incr cash cash equ. 
im',wind args) 

print (codes) 


if w wss data.ErrorCode !-0: 
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print (w_wss_ data) 
break; 
mm-np.mat(w wss data.Data) 
df-pd.DataFrame (mm.T, columns-w wss data.Fields) 
df['CODE']-w wss data.Codes 
df['rptDate']-[rptdate for j in range (len (code list))] 
df.to sql(name-'cashflow', con-engine, if exists-'append', 
index-False, index label-False) 
findex set-index set.append (df) 
# index_set.index= range (len (index set)) 


index-0 


# 抓 取 利润 表 科目 的 所 有 数据 
def get_income (Company_codes) : 
# 因 数据 量 太 大 ,分 段 读 取 数据 , 提升 效率 
rptDate list = ['20161231', ' 20151231 ', ' 20141231 ', ' 20131231 ', 
20123231") 
index set-pd.DataFrame() 
slice size-30 
n-int(len(company codes)/slice size) 
# 逐 年 遍历 抓 取 利润 表 数 据 
for rptdate in rptDate list: 
print (rptdate) # 打 印 抓 取 哪 一 年 的 数据 
index=0 
for i in range (index,n): 
print (i) 
code_list=company codes [int (i * slice_size):int((i+1) * 
slice size)] 
codes-",".join(code list) 
# 获 取 利 润 表 科 目的 所 有 数据 
wind_args="rptDate="+str (rptdate) +"; tradeDate="+str 
(rptdate)+";rptType=1;unit=1;order=1" 
w_wss_data=w.wss (codes, 'comp_name, tot_oper_rev,oper_ 
rev, int_inc, insur_prem_unearned, handling chrg comm inc,tot prem 
inc,reinsur inc,prem ceded,unearned prem rsrv withdraw,net inc 
agencybusiness, net _ inc _ underwriting - business, net _ inc _ 
customerasset-managementbusiness,other oper inc,net int inc,net 
fee and commission inc,net other oper inc,tot oper cost,oper cost, 
int exp,handling chrg comm exp, oper exp,taxes surcharges Oops, 
selling dist exp,gerl admin exp,fin exp is,impair loss assets, 
prepay surr,net claim exp,net insur cont rsrv,dvd exp insured, 


reinsurance exp, claim exp recoverable, Insur rsrv recoverable, 
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reinsur exp recoverable,other oper exp,net inc other ops,net gain 
chg fv,net invest inc,inc invest assoc jv entp,net gain fx trans, 
opprofit,non oper rev,non oper exp,net loss disp noncur asset,tot 
profit,tax,unconfirmed invest loss is,net profit is,minority int 
inc,np belongto parcomsh,eps basic is,eps diluted is,other compreh 
.inc,tot compreh inc,tot compreh inc min shrhldr,tot compreh inc. 
parent comp',wind args) 
print (codes) # 打 印 抓 取 公司 的 债券 代码 
if w_wss_data.ErrorCode !=0: 
print(w wss data) 
break; 
mm-np.mat(w wss data.Data) 
df-pd.DataFrame (mm.T, columns-w wss data.Fields) 
df['CODE']-w wss data.Codes 
df['rptDate']- [rptdate for j in range (len (code list))] 
df.to sql (name='income', con-engine, if exists- 'append', 
index-False, index label-False) # 将 抓 取 的 数据 存储 到 数据 库 中 ,数据 库 表 名 
称 为 income 
findex set-index set.append (df) 


print('Final') # 抓 取 最 后 一 段 的 利润 表 数 据 

code_list=company_codes [int (n* slice size):len (company 
codes) J 

codes=",".join(code_list) 

# 获 取 利 润 表 科目 的 所 有 数据 

wind_args =" rptDate =" + str (rptdate) +"; tradeDate="+ str 

(rptdate)*";rptType-1;unit-1;order-1" 

w wss data-w.wss(codes,'comp name,tot oper rev,oper rev,int 
.inc,insur prem unearned, handling chrg comm inc,tot prem inc, 
reinsur inc, prem ceded, unearned prem rsrv withdraw, net inc — 
agencybusiness, net _ inc _ underwriting - business, net _ inc 
customerasset-managementbusiness,other oper inc,net int inc,net 
fee and commission inc,net other oper inc,tot oper cost,oper cost, 
int exp,handling chrg comm exp,oper exp,taxes surcharges Oops, 
selling dist exp,gerl admin exp,fin exp is,impair loss assets, 
prepay surr,net claim exp,net insur cont rsrv,dvd exp insured, 
reinsurance exp, claim exp recoverable, Insur_rsrv_ recoverable, 
reinsur exp recoverable,other oper exp,net inc other ops,net gain 
chg fv,net invest inc,inc invest assoc jv entp,net gain fx trans, 
opprofit,non oper rev,non oper exp,net loss disp noncur asset,tot 
profit,tax,unconfirmed invest loss is,net profit is,minority int 


inc,np belongto parcomsh,eps basic is,eps diluted is,other compreh 


资 下 市 场 壤 用 债 投资 分 三 的 中 国 特色 


_inc,tot_compreh_inc, tot_compreh_inc_min_shrhldr,tot_compreh_inc_ 


parent_comp',wind args) 
print (codes) 
if w wss data.ErrorCode !=0: 
print(w wss data) 
break; 
mm-np.mat(w wss data.Data) 
df-pd.DataFrame (mm.T, columns-w wss data.Fields) 
df['CODE']-w wss data.Codes 
df['rptDate']-[rptdate for j in range (len (code list))] 
df.to_sql (name='income', con-engine, if exists- 'append', 
index-False, index label-False) 
# index_set=index_set .append (df) 
findex set.index-range (len (index set)) 


index-0 


# 抓 取 所 有 财务 数据 (资产 负债 表 、 现 金 流量 表 、 利 润 表 ) 并 存 到 数据 库 中 

w.start() 

engine- create engine ("mysql+ pymysql://test: admin@ 10. 8.16. 210: 
3306/creditrisk?charset=gbk") 

distinct company list-pd.read sql table('distinct company list', 
con-engine) 

company codes-list(distinct company list.CODE)4 获取 在 第 一 节 中 抓 取 的 
债券 代码 

get_balance (company_codes) # 抓 取 这 些 债券 的 资产 负债 表 会 计 科 目 中 的 所 有 数 
据 , 并 存 到 数据 库 中 ,数据 库 表 名 为 balance 

get_cashflow (company_codes)# 抓 取 这 些 债券 的 现金 流量 表 会 计 科 目 中 的 所 有 数 
据 , 并存 到 数据 库 中 ,数据 库 表 名 为 cashflow 

get income (company codes) # 抓 取 这 些 债 券 的 利润 表 会 计 科 目 中 的 所 有 数据 ,并 
存 到 数据 库 中 ,数据 库 表 名 为 income 

w.stop ()# 关 闭 windPy 插件 


第 二 部 分 ,本 福特 法 则 的 统计 计算 ,Python 代码 如 下 所 示 。 
# 加 载 本 福特 法 则 统计 计算 所 需 的 Python 包 


import pandas as pd 

import numpy as np 

import time 

import pymysql 

# 设置 时 间 的 起 点 ,以 便于 计算 程序 运行 的 时 间 
time start-time.time() 

# 数 据 库 配 置 ,以 抓 取 存储 在 数据 库 中 的 财务 数据 


config={ 
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'host':' 10.8.16.210', 

'port':3306, 

"user':'test', 

'passwd':'admin', 

'"db'i'creditrisk', 

'charset':'gbk', 
'cursorclass':pymysql.cursors.DictCursor 


} 


# 本 福特 法 则 计算 函数 
def benfordslaw calculation (merge set): 

merge set-merge set.fillna(0) 

CODE-merge set.CODE 

COMP NAME-merge set.COMP NAME 

merge set-merge set.drop(['CODE','COMP NAME'], axis-1) 

merge set-merge set.astype (str) 

# 初 始 化 变量 的 统计 结果 

num_counts=[[0 for i in range(9)] for i in range (len (merge set.ix 
(:,1]))] 


total_counts=[0 for i in range(len(merge_set.ix[:,1]))] 


digit=0 
# 使 用 循环 统计 1- 9 中 数字 出 现 的 次 数 
for i in range(len(merge_set.ix[:,1])): 
print ("counting object: "+str(i)) 
for j in range(len(merge_set.ix[i,:])): 
if merge set.ix[i,j][0] !-'0': 
total counts[i]-total counts[i]*1 
if merge set.ix[i,j][digit] --'1': 
num counts [i] [0]=num_counts [i] [0]+1 
elif merge_set.ix[i,j] [digit] =='2': 
num_counts [i] [1]=num_counts [i] [1]+1 


elif merge_set.ix[i,j][digit] =='3' 


num_counts [i] [2]=num_counts [i] [2]+1 


elif merge set.ix[i,j][digit] --'4' 


num counts [i] [3]=num_counts [i] [3]+1 
elif merge set.ix[i,j][digit] =='5': 
num_counts [i] [4]=num_counts [i] [4]+1 
elif merge set.ix[i,j][digit] =='6': 


num_counts [i] [5]=num_counts [i] [5]+1 


elif merge set.ix[i,j][digit] =='7': 


num_counts [i] [6]=num_counts [i] [6]+1 
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elif merge set.ix[i,j][digit] =='8': 
num counts[i][7]-num counts[i][7]*1 
elif merge set.ix[i,j][digit] =='9': 
num counts[i][8]2num counts[i][8]*1 
else: 
continue 
# 计 算 每 个 数字 出 现 的 频率 


for i in range(len(num counts)): 
if sum(num_counts[i]) !=0: 
p_counts=devide list (num_counts[i], sum(num counts [i])) 
for j in range(9): 


num_counts [i] [j]=p_counts[j] 


counts diff-[[0 for i in range(9)] for i in range (len (merge set.ix 
[:,11))] 
# 本 福特 法 则 理论 值 
benfords_dis=[30.1, 17.6, 12.5, 9.7, 7.9, 6.7, 5.8, 5.1, 4.6] 
# 计算 实际 统计 结果 跟 理 论 值 的 差异 
for i in range(len(num_counts)): 
for j in range(9): 


counts diff[i][j]-num counts[i][j] -benfords dis[j]/100 


diff quadratic sum- [0 for i in range (len (merge set.ix[:,11))] 
# 计 算 每 个 数字 的 统计 频率 跟 理论 值 的 误差 平方 和 
for i in range(len(counts diff)): 


for j in range(9): 


diff quadratic sum[i]-diff quadratic sum[i]* (counts 


diff[i][j] * counts diff[i][j]) 


# 封 装 本 福特 法 则 计算 结果 

benford=pd.DataFrame(num_counts, index-CODE, columns=['1','2', 
Dh De es kk a 

benford['diff quadratic sum']=diff quadratic sum 

benford['total counts']=total counts 

benford['COMP NAME']-list (COMP_NAME) 

benford-benford.sort values(by-['diff quadratic sum']) 


return benford 


# 计算 频率 的 函数 


def devide_list(input_list,y): 
def f(x): 
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returnx/y 


return list (map(f,input list)) 


# 主 函数 入 口 


if name ==" 


| main ": 
try: 
con-pymysql.connect (*x*config)# 连 接 数据 库 
with con.cursor() as cursor: 
query="SELECT * FROM credit_management. distinct company 
Lists" 
cursor.execute (query) 
result=cursor.fetchall()# 抓 取 需 要 下 载 财务 数据 的 公司 列表 
finally: 


con.close 


distinct company list-pd.DataFrame (result) 


balance-pd.DataFrame (np.copy (distinct company list),columns- 
['CODE', 'COMP_NAME']) 

cashflow-pd.DataFrame (np.copy(distinct company list),columns- 
['CODE', 'COMP_NAME']) 

income-pd.DataFrame (np.copy(distinct company list),columns- 
['CODE', 'COMP_NAME']) 


for year in range(2012,2017): 
date=str (year) +"1231" 
print (date) 
try: 
con-pymysql.connect (**config) 
with con.cursor() as cursor: 
query-"SELECT * FROM credit management.balance WHERE 
rptdate='"+date+"';" 
cursor.execute (query) 
result=cursor.fetchall()# 从 数据 库 中 抓 取 资产 负债 表 数 据 
balance x-pd.DataFrame (result) 
del balance x["rptdate"] 
balance-pd.merge (balance, balance x, how-'left', on- 
['CODE', 'COMP NAME']) 


query =" SELECT * FROM credit management. cashflow 
WHERE rptdate-'"t*date-"';" 


cursor.execute (query) 


Ro MIA TS AE RIT vo BAEC, 


result=cursor.fetchall()# 从 数据 库 中 抓 取现 金 流 量 表 数 据 

cashflow x-pd.DataFrame (result) 

del cashflow x["rptdate"] 

cashflow-pd.merge (cashflow, cashflow x, how-'left', 
on-['CODE','COMP NAME']) 


query-"SELECT * FROM credit management.income WHERE 
rptdate-'"4date-"';" 

cursor.execute (query) 

result=cursor.fetchall()# 从 数据 库 中 抓 取 利润 表 数 据 

income_x=pd.DataFrame (result) 

del income_x["rptdate"] 

income= pd.merge (income, income x, how='left', on= 
['CODE', 'COMP NAME']) 

finally: 


con.close 


T 调用 函数 计算 财务 数据 的 本 福特 法 则 统计 结果 
# 合 并 统计 资产 负债 表 、 现 金 流 量 表 、 利 润 表 的 财务 数据 


merge_set=pd.merge (balance, cashflow, how='left', on=['CODE', 
'COMP NAME']) 

merge set-pd.merge (merge set, income, how='left', on- ['CODE', 
'COMP NAME']) 


# 计算 合并 数据 的 本 福特 法 则 统计 数字 
benford_total=benfordslaw_calculation(merge set) 

output dir-"D:/TMP/benford total.csv" 

benford total.to csv(output dir, index-True, sep=', ')# 输 出 到 本 地 
# 计 算 资 产 负 债 表 的 本 福特 法 则 统计 数字 
benford_balance=benfordslaw_calculation (balance) 

output dir-"D:/TMP/benford balance.csv" 

benford balance.to csv(output dir, index- True, sep-',') # 输 出 到 本 地 
# 计算 现 金 流量 表 的 本 福特 法 则 统计 数字 
benford_cashflow=benfordslaw_calculation (cashflow) 
output_dir="D:/TMP/benford_cashflow.csv" 

benford cashflow.to csv(output dir, index=True, sep-',') # 输 出 到 本 地 

# 计算 利润 表 的 本 福特 法 则 统计 数字 
benford_income=benfordslaw_calculation (income) 
output_dir="D:/TMP/benford_income.csv" 

benford income.to csv(output dir, index-True, sep-',') # 输 出 到 本 地 
# 计 算 以 上 所 有 计算 花费 的 时 间 

time end-time.time() 


time used- (time end -time start)/60 


ow 


e 
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print("time used: "+str (time used))# 输 出 耗 时 


第 三 部 分 ,使 用 本 福特 法 则 的 统计 结果 对 每 家 公司 的 财务 状况 进行 评分 , 评 
分 的 基本 原理 和 步骤 主要 包括 : 计算 每 家 公司 所 有 财务 数据 (三 张 报表 合并 
的 所 有 数据 ) 的 首位 数字 统计 频率 ,并 计算 其 跟 理 论 概 率 的 误差 平方 和 ; @ 分 别 
计算 每 家 公司 三 张 财报 的 首位 数字 统计 频率 ,并 计算 其 跟 理论 概率 的 误差 平方 
和 ; @ 将 上 述 四 列 误差 平方 和 分 别 计算 分 位 数 ,并 分 成 11 段 ; @ 将 分 位 数 得 到 
的 11 段 ,从 小 到 大 分 别 附 上 1.0,1.1,1.2,…,2.0 的 权重 ; @ 将 每 列 的 得 分 转 
换 为 0 一 10 分 , 且 10 分 为 最 高 分 ; @ 计 算 这 四 列 得 分 的 均值 , 即 为 该 公司 的 本 
福特 评分 结果 ,评分 越 高 说 明 财 务 质 量 越 好 ,反之 则 越 差 。 

本 福特 评分 的 Python 代码 如 下 所 示 。 


# 使 用 本 福特 法 则 的 统计 结果 ,对 各 公司 的 财务 状况 进行 评分 
import pandas as pd 
import numpy as np 


import csv 


# 读 取 csv 文件 
def read_csv(input_dir): 
csvFile=open(input_dir, "r") 
reader-csv.reader(csvFile) # 返 回 的 是 迭代 类 型 
data=[] 
for item in reader: 
#print (item) 
data.append (item) 


csvFile.close() 


return data 


# 计算 分 位 数 
def quantile(data list,seq num-4): 
quantile list-[] 
fori in range(seq num*1): 
percentage- (i/seq num) * 100 
quantile list.append(np.percentile(data list,percentage)) 


return quantile list 


# 读 取 三 张 报表 合并 数字 的 本 福特 统计 结果 跟 理论 结果 的 误差 平方 和 
input dir="D:/TMP/benford total.csv" 
benford_total=read_csv(input_dir) 


benford_total=pd. DataFrame (benford_total [1:], columns=benford _ 
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total[0]) 
benford total- benford total.loc[:,["COMP NAME","total counts"," 


diff quadratic sum"]] 


benford total boundarys-quantile (benford total["diff quadratic 


sum"].astype(float),11) 

benford total boundarys-benford total boundarys[1:11] 
# 读 取 资 产 负债 表 数字 的 本 福特 统计 结果 跟 理 论 结果 的 误差 平方 和 
input_dir="D:/TMP/benford_balance.csv" 


benford_balance=read_csv (input_dir) 


benford_balance=pd.DataFrame (benford_balance[1:],columns=benford_ 


balance[0]) 


benford balance = benford balance. loc [:, [ " COMP NAME "," diff = 


quadratic_sum"]] 


benford balance  boundarys = quantile (benford _ balance [" diff . 


quadratic sum"].astype(float),11) 

benford balance boundarys-benford balance boundarys[1:11] 

# 读 取现 金 流 量 表 数字 的 本 福特 统计 结果 跟 理 论 结果 的 误差 平方 和 

input dir="D:/TMP/benford cashflow.csv" 
benford_cashflow=read_csv(input_dir) 

benford_cashflow= pd. DataFrame (benford cashflow [1:], columns = 
benford cashflow[0]) 


benford_cashflow = benford cashflow. loc [:, [" COMP NAME","diff _ 


quadratic sum"]] 


benford cashflow boundarys = quantile (benford cashflow["diff _ 


quadratic sum"] .astype (float),11) 

benford cashflow boundarys-benford cashflow boundarys[1:11] 
# 读 取 利 润 表 数字 的 本 福特 统计 结果 跟 理 论 结果 的 误差 平方 和 
input_dir="D:/TMP/benford_income.csv" 


benford income-read csv(input dir) 


benford income- pd.DataFrame (benford income[1:],columns-benford 


income[0]) 


benford income-benford income.loc[:,["COMP NAME","diff quadratic 


sum"]] 


benford income boundarys-quantile(benford income["diff quadratic. 


sum"].astype(float),11) 


benford income boundarys-benford income boundarys[1:11] 


# 将 上 述 四 列 数据 ,合并 到 一 个 数据 集 

merge_set=pd.merge (benford total, benford balance, how-'left', on= 
['COMP NAME']) 

merge set=pd.merge (merge set, benford cashflow, how-'left', on- 
['COMP NAME']) 
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merge set- pd. merge (merge set, benford income, how- 'left', on= 
['COMP NAME']) 

merge set.columns- ["COMP NAME","counts","total","balance","cash _ 
flow","income"] 

# 设 置 运算 结果 为 浮 点 数 , 以 便于 保留 小 数位 得 分 


merge set.counts-merge set.counts.astype (float) 


merge set.total-merge set.total.astype(float) 
merge set.balance-merge set.balance.astype (float) 
merge set.cash flow-merge set.cash flow.astype(float) 


merge set.income-merge set.income.astype (float) 


Score list-[] 
for iin range(len(merge set.COMP NAME)): 
print ("counting object: "+str(i)) 
weight_score list=[] 
PERIE 
for j in range (2,6): 
if merge set.iloc[i,j]«benford total boundarys[0]: 
weight score list.append(0) 
elif merge set.iloc[i,j]»-benford total boundarys[0] and 
merge set.iloc[i,j]«benford total boundarys[1l 
weight score list.append(1* 1.1) 
elif merge set.iloc[i,j]»-benford total boundarys[1] and 
merge set.iloc[i,j]«benford total boundarys[2 
weight score list.append(2* 1.2) 
elif merge set.iloc[i,j]»-benford total boundarys [2] and 
merge set.iloc[i,j]«benford total boundarys[3 
weight score list.append(3*1.3) 
elif merge set.iloc[i,j]»-benford total boundarys [3] and 
merge set.iloc[i,j]«benford total boundarys[4 
weight score list.append(4* 1.4) 
elif merge set.iloc[i,j]»-benford total boundarys [4] and 
merge set.iloc[i,j]«benford total boundarys[5 
weight score list.append(5*1.5) 
elif merge set.iloc[i,j]»-benford total boundarys [5] and 
merge set.iloc[i,j]«benford total boundarys[6 


weight score list.append(6* 1.6) 


elif merge set.iloc[i,j]»-benford total boundarys[6] and 


merge set.iloc[i,j]«benford total boundarys[7 


weight score list.append(7* 1.7) 
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elif merge set.iloc[i,j]»-benford total boundarys [7] and 
merge set.iloc[i,j]«benford total boundarys[8]: 
weight score list.append(8 * 1.8) 
elif merge set.iloc[i,j]»-benford total boundarys [8] and 
merge set.iloc[i,j]«benford total boundarys [9] : 
weight score list.append(9* 1.9) 
else: 


weight score list.append(10 * 2) 


comprehensive score- (20-sum(weight score list)/4)/2 tibfE dk a Ff A 
# 如 果 一 家 公司 的 数字 太 少 ,直接 得 -1 分 
if merge_set.counts[i]<50: 


comprehensive score--1 
Score list.append(comprehensive score) 


merge set["score"]- Score lis t 

merge set-merge set.sort values (by-"score",axis-0,ascending- False) 
# 输 出 每 家 公司 的 最 终 本 福特 评分 结果 

output dir-"D:/TMP/benfordslaw comprehensive score.csv" 


merge set.to csv(output dir, index-False, sep-',') 


根据 本 福特 评分 结果 的 输出 文件 ,并 结合 已 经 违约 的 168 只 债券 的 发 行 主 


体 ,我们 找 出 了 其 中 有 较 多 财务 数据 的 34 家 已 违约 企业 ,它们 的 本 福特 得 分 分 
别 如 表 6.2 所 示 。 


表 6.2 部 分 已 经 违约 债券 发 行 主体 的 本 福特 得 分 


财报 数 | 总 误差 | 资产 负债 表 | 现金 流量 表 | 利润 表 误 | 本 福特 


公司 
SHAR 据 个 数 | 平方 和 | 误差 平方 和 | 误差 平方 和 | 差 平 方 和 | 得 分 


江苏 保 千里 视 像 科 
技 集 团 股 份 有 限 477 |0.001 1| 0.0021 0. 006 0.011 7 6. 86 
公司 


2 : , un 462 |0.002 4] 0.0022 0. 004 5 0.016 7 6.49 
3 umm 353 [0.004 7| 0.0035 0.003 1 0.062 4 5. 74 
4 — 410 |0.002 6] 0.007 9 0.003 3 0.031 9 5.59 
5 E 442 ]|0.0015| 0.0106 0. 005 0.010 7 5. 46 
6 BEARS ARIE 497 10.003 4| 0.0005 0.017 1 0.014 7 5. 24 


有 限 公司 


Xo 


总 误差 | 资产 负 流量 PETET 
bal did 误差 资产 负债 表 [ 现 金 流量 表 | 利润 表 误 | 本 福特 
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据 个 数 | 平方 和 | 误差 平方 和 | 误差 平方 和 | 差 平 方 和 | 得 分 

河北 省 物流 产业 集 ; : = 
7 | 团 有 限 公司 125 |0.002 9| 0.0082 0.0036 | 0.0161 | 5.19 
8 Dm 615 [0.002 0.005 3 0.0079 | 0.0183 | 5.04 
9 = 513 [0.001 9] 0.009 0.0043 | 0.0146 | 4.99 


B kv 


四 川 省 煤炭 产业 集 


S23 wh us uodMd 


NS 


( 


10 一 539 |0.001 8| 0.005 0.0098 | 0.0347 | 4.99 
团 有 限 责 任 公司 
东北 特殊 钢 集团 有 

11 325 0.000 9 0.009 0.010 8 0.0093 4.6 
限 责任 公司 


003 4 0. 033 4,54 


12 | 亿 阳 集团 股份 有 限 | 
公司 

”| 协 竟 集 成 科技 股份 | 

13 | 有 限 公司 is 
PRAIS] 

14 | 能 源 有 限 公司 


i 
0.007 4 0. 037 2 4. 24 
rh ps] epe t 7 
15 Pig P RUE HA M 244 0. 005 0.004 6 0.010 9 0.0215 4. 19 
公司 
AHELA 
; MARKHAM) zey 0.0104 | 0.055 4. 16 
BL Az 3k AE y 
17 丹东 港 集团 有 限 506 |0.0045| 0.0039 0.022 9 0.037 7 4. 09 
公司 


16 


珠海 中 富 实业 股份 - 

18 186 |0.0025| 0.0089 | 0.0093 | 0.0128 | 3.96 
有 限 公司 
保定 天 威 英利 新 能 - - 

19 | = 450 |0.0084| 0.0025 | 0.0279 | 0.0189 | 3.63 
源 有 限 公 司 
富贵 鸟 人 

20 | 富贵 岛 股份 有 限 | 426 |ooog1| 0.0063 | 0.0099 | 0,0425 | 3.38 
公司 
神 雾 科技 集团 股份 

21 499 |0.0064| 0.0045 | 0.0228 | 0.0692 | 3.3 
ARAE 
4E B yp Ba 4E pil 

22 | 华 盛 江 泉 集团 有 限 | 5o7 [o 003.91 0.0091 | 0.0141 | 0.015 3. 23 
公司 

BLIP 
23 | 大 连 机 床 集团 有 限 | 403 |0 0057| 0.0078 | 0.0335 | 0.0225 | 3.04 


责任 公司 


obti AT ST db BA 


BER 
序号 公司 名 称 财报 数 | 总 误差 | 资产 负债 表 | 现金 流量 表 | 利润 表 误 | 本 福特 
Ed 据 个 数 | 平方 和 | 误差 平方 和 | 误差 平方 和 | 差 平 方 和 | 得 分 
24 qa 达 矿业 有 限 0.0109 | 0.0084 | 2.78 
山东 山水 水 泥 集团 5 
25 | 有 限 公司 0.0258 | 0.0367 | 2.73 
26 | 春 和 集团 有 限 公 司 0.0272 | 0.0609 | 2.65 
甘肃 安良 皮 业 股份 
27 | 有 限 公司 0.009 0.028 9 | 2.46 
og | 42 HAGA OA Me 0.0087 | 0.0122 | 2.44 
公司 
29 | 四川 又 达 集团 有 限 a | 2.39 
公司 
河南 佳 源 乳 业 股份 P 
" EE 0.0213 | 0.0244 | 1.70 
32 spi mae 0.0113 | 0.0248 | 1.79 
NMETUTTTTT. : Jm j 
ga | IEA M o.o174 | 0.0706 | 1.79 
公司 
由 表 6. 2 的 本 福特 得 分 结果 可 见 , 绝 大 多 数 的 已 违约 企业 处 于 "及 格 分 ” 


(6 分 ) 以 下 。 我 们 分 别 统计 了 这 34 家 已 经 违约 企业 的 本 福特 得 分 分 布 情况 ,如 


图 6.39 和 图 6. 40 所 示 。 
30 
25 


个 数 


X3 


7696 


24% 


F5 分 小 于 5 分 


图 6. 39 
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图 6. 40 
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场 外 数据 的 主体 评级 模型 开发 方法 


由 前 几 章 的 介绍 可 知 ,在 国内 资本 市 场 的 现状 下 ,仅仅 使 用 财务 数据 是 很 难 
评估 信用 债 发 行 主体 真实 信用 风险 的 。 因 此 ,根据 笔者 的 深度 研究 结论 ,本章 将 
重点 介绍 采用 场 外 司法 、 招 聘 、 股 权 出 质 、 动 产 抵押 等 真实 数据 ,并 采用 机 器 学 习 
的 方法 来 开发 评估 信用 债 发 债主 体 真实 信用 风险 的 方法 。 此 处 ,我 们 开发 的 信 
用 风险 评级 模型 不 同 于 评分 卡 模型 ,如 果 读 者 想 深 入 理解 评分 卡 模型 的 开发 方 
法 ,请 阅读 笔者 的 另外 一 本 书 4 基 于 R 语言 的 证 券 公司 信用 风险 计量 和 管理 》。 
在 这 本 书 中 ,笔者 详细 介绍 了 评分 卡 模型 的 开发 方法 。 


7.1 有 监督 机 器 学 习 方法 开发 模型 及 Python 源 代码 


本 节 重 点 介绍 采用 有 监督 机 器 学 习 技 术 开 发 评级 模型 的 方法 ,并 提供 详细 
的 Python 源 代 码 和 注释 说 明 。 该 类 机 器 学 习 技 术 有 别 于 评分 卡 模型 的 开发 方 
法 ,主要 体现 在 两 者 基本 原理 的 不 同 。 

有 监督 机 器 学 习 技 术 既 可 用 于 对 信用 债 发 行 主体 违约 概率 的 预测 ,也 可 用 
于 分 类 。 如 果 用 于 预测 , 则 可 将 非 线性 表达 式 表示 的 模型 转换 为 评分 卡 模 型 ;如 
果 用 于 分 类 , 则 只 能 使 用 样本 集训 练 分 类 器 ,并 使 用 该 分 类 器 对 测试 集 的 样本 进 
行 分 类 运算 ,输出 的 结果 也 只 有 "违约 ?或 "正常 ?这 样 的 类 别 , 无 法 计算 违约 概 
率 , 也 无 法 转换 为 评分 卡 模型 。 使 用 有 监督 机 器 学 习 技 术 开 发 的 模型 ,一般 都 是 
抽象 的 非 线 性 多 项 式 表示 的 模型 ,这 对 于 非 计算 机 专业 出 身 的 信用 债 投资 者 来 
说 ,理解 非常 困难 ; 且 对 于 存在 疑问 的 输出 结果 ,通常 较 难 找到 直接 的 原因 。 

评分 卡 模型 可 以 直观 地 给 出 每 个 信用 债 发 行 主体 的 分 数 ,并 能 够 详细 追踪 
每 个 指标 的 得 分 及 该 指标 对 总 得 分 的 贡献 。 在 开发 原理 方面 ,评分 卡 模型 的 开 
发 需要 首先 对 每 个 指标 进行 证 据 权重 (WOE) 转换, 然后 使 用 修 辑 回归 函数 拟 
合 , 并 设 定 初始 分 数 和 比率 翻番 的 分 数 (PDO) 即 可 生成 评分 卡 模型 。 

本 节 采 用 的 数据 集 来 自 笔者 正在 做 的 一 个 项 目 , 因 涉及 大 量 的 商业 信息 , 因 
此 做 了 脱 敏 处 理 。 该 数据 集 共计 包含 8 155 个 样本 ,其 中 违约 样本 160 个 ,入 模 
指标 18 个 ,违约 状态 指标 1 个 。 模 型 的 详细 Python 代码 ,如 下 所 示 。 


# 导 和 人 模型 开发 和 检验 所 需 的 Python 包 
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import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 

import matplotlib.gridspec as gridspec 
plt.style.use('ggplot') ## 风 格 设置 近似 R 这 种 的 ggplot JE 
import seaborn as sns 

# 设置 输出 图 片 保存 格式 和 字体 
plt.rcParams['font.sans-serif']=['SimHei'] # 指 定 默认 字体 
plt.rcParams['axes.unicode minus']=False# 解 决 保存 图 像 是 负 号 '- ' 显 示 
为 方块 的 问题 

# 忽 略 弹出 的 warnings 

import warnings 

warnings.filterwarnings('ignore') 

# 导 人 机 器 学 习 相 关 Python 包 

from sklearn.linear model import LogisticRegression 
from sklearn.cross validation import cross val predict 
from sklearn.model selection import cross val score 

from sklearn import metrics 

from sklearn.cross validation import train test split 
from imblearn.over sampling import SMOTE # 导 和 SMOTE 算法 模块 
from sklearn.preprocessing import StandardScaler 

# 读 和 人 数据 集 ,该 数据 集 已 做 脱 敏和 缺失 值 填充 处 理 

df-pd.read excel("chapter?7 data.xlsx") 

df.head()# 查 看 前 5 17, WR 7.1 所 示 


表 7.1 数据 集 的 前 五 行 数据 


B I J 
—11 —13 29 20 
11 13 29 20 
—11 —18 —16 4.9 
11 13 4.7 —20 
11 13 29 20 
K L isDefault 
—3.8 4.6 1 
-3.8 1.6 1 
3.8 15 1 
3.8 15 1 
2 4.6 1 


count 


基于 场 外 数据 的 主体 评级 简 型 开发 方法 


# 查 看 数据 集 缺 失 值 情况 Y 
df.isnull().sum(axis-O0).sort values (ascending= False)/float (len * 


(df)) # 缺 失 值 统 计 结 果 , 如 图 7.1 所 示 


1 

1 

1 

1 

1 

i 

Out [6]: i 

# 查 看 数据 集 的 维 数 和 数据 集 的 列 名 oe e 
df.shape #19 9l 8 155 个 样本 B 0.0 i 
df.columns # 显 示 数 据 集 的 列 名 C "ie 
cols of feature-df.columns[:-1] # 选 择 特征 变量 E 0.0 
# 目标 变量 分 布 可 视 化 r a ' 
fig, axs-plt.subplots(1,2,figsize- (14,7)) H 0.0 j 
sns.countplot (x='isDefault', data=df,ax=axs a 
[0]) K 0.0 l 
axs[0].set_title ("Frequency of each Target") i "e | 
df['isDefault'].value counts().plot(x-None, |N 0.0 A 
y=None, kind= ' pie ', ax= axs [1], autopct = s Ma 
'$1. 2£$$') Q 0.0 1 
axs[1].set title ("Percentage of each Target") diss TET. d | 


fig.savefig ("Normal VS Default") 
plt.show() # 绘 制 数据 集 目标 变量 分 布 图 ,如 图 7.2 所 示 “图 7,1 缺失 值 统计 图 uj 


Frequency of each Target Percentage of each Target 


isDefault 


isDefault 


图 7.2 数据 集 目标 变 量 分 布 图 


# 可 见 , 数 据 集 中 正常 样本 和 违约 样本 的 占 比 极度 不 均衡 。 正 常 样本 占 比 98.022, ik 
约 样本 占 比 1.965. 

# 查 看 数据 集中 正常 样本 和 违约 样本 的 个 数 

df['isDefault'].value_counts() #7 995 个 正常 样本 ,160 个 违约 样本 

# 在 不 同 目标 变量 下 ,对 比 指标 的 相关 性 , 并 绘制 相关 性 图 谱 
XDefault-df.loc[df["isDefault"]--1] 


BRAS we a aD 


mkv E 


X kH uoujd 


E 


IH GFEDCBA 


RQPONMLK7]J 


XnonDefault-df.loc[df["isDefault"]--0] 
correlationNonDefault-XnonDefault.loc[:, df.columns ! -'isDefault']. 
corr () 

mask=np.zeros like(correlationNonDefault) 

indices-np.triu indices from(correlationNonDefault) 
mask[indices]-True 

grid kws-("width ratios": (.9, .9, .05), "wspace": 0.2} 

f, (axl, ax2, cbar ax)-plt.subplots (1, 3, gridspec kw-grid kws, 
figsize- (14, 9)) 

cmap-sns.diverging palette (220, 8, as cmap- True) 

axl-sns.heatmap (correlationNonDefault, ax=axl, vmin=-1, vmax=1, 
cmap=cmap, square-False, linewidths-0.5, mask=mask, cbar-False) 
axl.set xticklabels(axl.get xticklabels(), size-16) 

axl.set yticklabels(axl.get yticklabels(), size=16) 

axl.set title('Non Default', size-20) 
correlationDefault-XDefault.loc[:, df.columns ! -'isDefault'].corr() 
ax2=sns.heatmap (correlationDefault, vmin-- 1, vmax- 1, cmap=cmap, 
ax-ax2, square= False, linewidths - 0.5, mask = mask, yticklabels= 
False, cbar ax-cbar ax,cbar kws-[('orientation': 'vertical','ticks': 
[73, 20.5, 0, 0.5, 1t)T) 

ax2.set xticklabels(ax2.get xticklabels(), size-16) 

ax2.set title('Default', size-20) 

cbar ax.set yticklabels (cbar ax.get yticklabels (0), size=14) 
plt.savefig('Feature Correlation', bbox inches-'tight') # 输出 指标 的 


相关 性 图 谱 , 如 图 7.3 所 示 
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基于 场 外 数据 的 主体 评级 简 型 开发 方法 


# 通 过 随机 森林 算法 ,计算 特征 重要 性 , 并 绘制 特征 重要 性 累计 分 布 图 


from sklearn.ensemble import RandomForestClassifier 


Ad 


clf-RandomForestClassifier(n estimators-10,random state-123) #4 # 
分 类 随机 森林 分 类 器 

clf.fit(x val[cols of feature], y val) # 对 自 变量 和 因 变 量 进行 拟 合 
cols of feature, clf.feature_importances_ 

for feature in zip(cols of feature, clf.feature importances ): 


print(feature) 


# 绘制 特征 重要 新 累计 分 布 图 ,如 图 7.4 所 示 


Feature importances by RandomTreeClassifier 
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图 7.4 特征 重要 新 累计 分 布 图 


plt.style.use('fivethirtyeight') 
plt.rcParams['figure.figsize']- (12,6) 

3 根据 输 出 的 各 指标 重要 性 排序 结果 ,剔除 重要 性 最 弱 的 两 个 变量 O, H 
cols to drop-['Q','H'] 


col val-df[cols of feature].columns.drop(cols to drop) 


## 训 练 模型 前 的 准备 工作 
# 构 建 自 变 量 和 因 变 量 
X=df[col_val] 
y=df["isDefault"] 


# 将 模型 划分 为 训练 集 和 测试 集 
from sklearn.model_selection import train_test_split 
X train, X test, y train, y test-train test split(X, y, test_size=0. 3, 


random state-0) # 


# 处 理 样本 不 平衡 ,只 对 训练 集 作 处 理 

from imblearn.over_sampling import SMOTE # 导 入 SMOTE 算法 模块 
sm=SMOTE (random_state=42) # 处 理 过 采样 的 方法 

X_train, y train=sm.fit_sample(X_train, y train) 


print ("iit SMOTE 方法 平衡 正 负 样 本 后 ') 
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n sample-y train.shape[0] 

n pos sample-y train[y train--0].shape[0] 

n neg sample-y train[y train--1].shape[0] 

print (RSZ: {}; 正 样本 占 {:.2%}; MPAA {:.2%}'. format (n sample,n | 


pos sample / n sample,n neg sample / n sample)) 


# 通 过 SMOTE 方法 平衡 正 负 样 本 后 
# 样 本 个 数 : 11 210; 正 样本 占 50.009; 负 样 本 占 50.008 


# 模 型 训练 和 比较 
# 此 处 采用 多 种 机 器 学 习 方法 来 训练 模型 ,包括 AdaBoost、Bagging、ExtraTrees、 
GradientBoosting.RandomForest,.GaussianProcess,.SVM 等 
from sklearn import svm, model selection, tree, linear model, 
neighbors, naive bayes, ensemble, discriminant analysis, gaussian 
process 
from sklearn. metrics import mean squared error, confusion matrix, 
precision score, recall score, auc,roc curve 
import seaborn as sns 
# 汇 总 各 机 器 学 习 方法 ,以 便于 遍历 训练 
MLA= [ 
#Ensemble Methods 
ensemble.AdaBoostClassifier(), 
ensemble.BaggingClassifier(), 
ensemble.ExtraTreesClassifier(), 
ensemble.GradientBoostingClassifier(), 
ensemble.RandomForestClassifier(), 
#Gaussian Processes 
gaussian process .GaussianProcessClassifier(), 
#GLM 
linear model.LogisticRegressionCV(), 
linear model.PassiveAggressiveClassifier(), 
linear model.RidgeClassifierCV(), 
linear model.SGDClassifier(), 
linear model.Perceptron(), 
#Navies Bayes 
naive bayes.BernoulliNB(), 
naive bayes.GaussianNB(), 
#Nearest Neighbor 
neighbors.KNeighborsClassifier(), 
#SVM 
svm.SVC(probability-True), 
svm.NuSVC(probability-True), 


基于 场 外 数据 的 主体 评级 简 型 开发 方法 


svm.LinearSVC(), 


Kp NAN 


#Trees 
tree .DecisionTreeClassifier(), 
] 


# 拟 合 模 型 
MLA columns-[] 


MLA compare=pd.DataFrame (columns=MLA columns) 


for alg in MLA: 
predicted-alg.fit(X train, y train).predict(X test) 
fp, tp, th-roc curve(y test, predicted) 
MLA name-alg. class . name 
MLA compare. loc[row index, 'MLA Name']-MLA name 
MLA compare.loc [row index, "MLA Train Accuracy']- round (alg. 
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row_index=0 
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score(X_train, y_train), 4) ! 
a 1 
i 
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MLA compare.loc[row index, 'MLA Test Accuracy']- round (alg. 
Score(X test, y test), 4) [ur 
MLA compare.loc [row index, 'MLA Precission']- precision 


Score(y test, predicted) 

MLA compare.loc[row index, 'MLA Recall']-recall score(y. 
test, predicted) 

MLA compare.loc[row index, 'MLA AUC']-auc (fp, tp) 


row index* -1 


MLA compare.sort values (by- ['MLA Test Accuracy'], ascending- 


False, inplace-True) 


MLA compare 


# 输 出 各 机 器 学 习 算法 检验 比较 结果 ,如 表 7.2 所 示 


表 7.2 各 机 器 学 习 算法 检验 比较 % 

MLA Name MLA Train | MLA Test MLA MLA MLA 
Accuracy Accuracy Precission Recall AUC 

GaussianNB 81.5 89.5 15.2 71.2 0. 83 
PassiveAggressiveClassifier 84.9 84.3 11.2 82.5 0. 83 
BemoulliNB 84.3 87.1 12. 9 78.9 0. 83 
LogisticRegressionC V 86.8 86.4 12.3 78.9 0. 83 
RidgeClassifierC V 86.5 85.7 11..8 78.9 0. 82 
LinearSVC 85.3 81.0 9,2 80. 7 0.81 
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续 表 

MLA Name MLA Train MLA Test MLA MLA MLA 
Accuracy Accuracy Precission Recall AUC 

K NeighborsClassifier 98. 94. 25.2 61.4 0.79 
SGDClassifier 79. E 7.6 70. 2 0.75 
AdaBoostClassifier 98. 32.1 47.4 0.72 
GradientBoostingClassifier 55.9 33.3 0.66 
Perceptron 3.7 66.7 0.63 
GaussianProcessClassifier 21.5 24.6 0.61 
ExtraTreesClassifier 60. 0 21.1 0.60 
DecisionTreeClassifier 20.0 19.3 0.59 
BaggingClassifier 36.0 15.8 0.58 
RandomForestClassifier 53.8 12.3 0.56 
NuSVC 0.0 0.0 0.50 
SVC 0.0 0.0 0.50 


# 比较 训练 集 上 不 同 模型 的 准确 率 (RAccuracy) 
plt.subplots (figsize= (15,6)) 


sns.barplot (x-"MLA Name", y="MLA Train Accuracy", data=MLA_ 


compare, palette='hot',edgecolor=sns.color_ palette ('dark',7)) 
plt.xticks (rotation=90) 
plt.title('MLA Train Accuracy Comparison') 
plt.show () 
# 绘 制 各 机 器 学 习 算法 训练 集 检验 准确 率 比较 图 ,如 图 7.5 所 示 
# 比较 测试 集 上 不 同 模型 的 准确 率 
plt.subplots (figsize= (15,6)) 


sns.barplot (x="MLA Name", y="MLA Test Accuracy", data = MLA _ 


compare, palette='hot',edgecolor=sns.color palette ('dark',7)) 
plt.xticks (rotation=90) 
plt.title('MLA Test Accuracy Comparison') 
plt.show () 


# 绘 制 各 机 器 学 习 算 法 测试 集 检验 准确 率 (Accuracy) eR, 如 图 7.6 所 示 


# 比 较 不 同 模型 的 精准 率 


plt.subplots (figsize= (15, 6)) 


sns.barplot (x="MLA Name", y="MLA Precission", data=MLA_compare, 


palette-'hot',edgecolor-sns.color palette('dark', WY 


plt.xticks (rotation=90) 
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plt.title('MLA Precission Comparison') 
plt.show () 
# 绘 制 各 机 器 学 习 算 法 检验 精准 率 (Precision) 比 较 图 ,如 图 7.7 所 示 
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图 7.7 绘制 各 机 器 学 习 算 法 检验 准确 率 比较 图 
# 比较 不 同 模型 的 召回 率 
plt.subplots(figsize- (15,6) ) 
sns.barplot (x="MLA Name", y="MLA Recall", data=MLA_compare, 
palette='hot',edgecolor=sns.color palette('dark',7)) 
plt.xticks (rotation=90) 
plt.title('MLA Recall Comparison') 
plt.show () 
# 绘 制 各 机 器 学 习 算 法 召回 率 (Recall) 比 较 图 ,如 图 7.8 所 示 
# 比 较 不 同 模型 的 AUC 
plt.subplots (figsize= (15, 6)) 
sns.barplot (x="MLA AUC", y="MLA Name", data=MLA_compare, palette= 
'hot', edgecolor-sns.color palette('dark',7)) 
plt.xticks (rotation=90) 
plt.title('MLA AUC Comparison') 
plt.show () 
# 绘 制 各 机 器 学 习 算 法 auc 比较 图 ,如 图 7.9 所 示 


# 绘 制 Roc 比较 曲线 
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图 7.8 绘制 各 机 器 学 习 算 法 训练 召回 率 比 较 图 


MLA AUC Comparison 


MLA Name 


DecisionTreeClassifier B ] 


BaggingClassifier 
RandomForestClassifier 


NuSVC ] 
svc ] 
3 E 3 3 3 3 3 3 3 
MLA AUC 
图 7.9 绘制 各 机 器 学 习 算 法 AUC 比较 图 
index=1 


for alg in MLA: 
predicted-alg.fit(X train, y train).predict(X test) 
fp, tp, th-roc curve(y test, predicted) 
roc auc mla-auc(fp, tp) 
MLA name-alg. class . name 
plt.plot(fp, tp, lw-2, alpha-0.3, label='ROC ss (AUC=%0.2f)' 
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True Positive Rate 


index+ =1 


plt.subplots(figsize- (15,6)) #test 

plt.title('ROC Curve comparison') 

plt.legend(bbox to anchor- (1.05, 1), loc=2, borderaxespad=0.) 
pitiplot([0,11,1[0,1], 'x--") 

plt:xlim([0;1]) 

plt.ylim([0,1]) 

plt.ylabel('True Positive Rate') 

plt.xlabel('False Positive Rate') 

plt.show () 

# 绘 制 各 机 器 学 习 算法 的 Roc 曲线 比较 图 ,如 图 7.10 所 示 


ROC Curve comparison 


— ROC AdaBoostClassifier (AUC = 0.72) 
ROC BaggingClassifier (AUC = 0.56) 
ROC ExtraTreesClassifier (AUC = 0.59) 
ROC GradientBoostingClassifier (AUC = 0.66) 
ROC RandonForestClassifier (AUC = 0.59) 
— ROC GaussianProcessClassifier (AUC = 0.61) 


一 ROC PassiveAggressiveClassifier (AUC = 0.86) 
ROC RidgeClassifierCV (AUC = 0.82) 
ROC SGDClassifier (AUC = 0.77) 
ROC Perceptron (AUC = 0. 63) 
— ROC Bernoul | iNB (AUC = 0. 83) 
— ROG Gaussian (AUC = 0.83) 
— ROC KNeighborsClassifier (AUC = 0.79) 
ROC SVC (AUC = 0.50) 
ROC NuSVC (AUC = 0. 50) 
ROC LinearSyC (AUC = 0.73) 
04 06 oe 10 — ROC pecisionTresclassifier (AUC = 0.57) 
False Positive Rate 


图 7.10 绘制 各 机 器 学 习 算 法 的 ROC 曲线 比较 图 
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# 由 以 上 各 机 器 学 习 算 法 的 检验 结果 可 知 ,逻辑 回归 算法 对 本 数据 集 的 分 类 效果 
最 好 ,因此 我 们 选择 逻辑 回归 算法 进行 优化 调 参 。 
# 模 型 调 参 


from sklearn.model_selection import GridSearchCV 

param grid-('C': [0.01,0.1, 1, 10, 100, 1000,],'penalty': [ '11', 
'12']] 

clf logreg GridSearch-GridSearchCV (LogisticRegression(), param 
_grid, scoring-'roc auc', cv-10) # 确 定 模型 LogisticRegression 和 参数 
组 合 param_grid ,cv 指定 5 折 

clf logreg GridSearch.fit(X train, y train) # 使 用 训练 集 学 习 算 法 

clf logreg GridSearch.best estimator # 输 出 调 参 后 的 最 优 参数 

clf logreg GridSearch.best params _# 输 出 结果 表明 ,c 为 0.01， 
penalty 为 L1 时 为 模型 最 优 参数 

clf logreg GridSearch.best score # 输 出 最 优 分 数 


# 选 取 AUC 分 数 最 高 的 参数 组 合作 为 最 终 的 模型 参数 


True Positive Rate 


基于 场 外 数据 的 主体 评级 简 型 开发 方法 


clf logreg-clf logreg GridSearch.best_estimator_ T 
from sklearn.metrics import auc * 


from sklearn.metrics import roc curve 


y pred test prob-clf logreg.predict proba(X test)[:, 1] 
fpr, tpr, thresholds-roc curve(y test,y pred test prob) 
roc auc-auc (fpr,tpr) 


roc auc # 最 优 模型 的 AUC 为 0.92 
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# 绘 制 Roc 曲线 i 
plt.figure(figsize- (14,7)) 
plt.title('Receiver Operating Characteristic') i 
plt.plot(fpr, tpr, 'b',label-'AUC-$0.5f'$roc auc) i 
plt.legend(loc='lower right') | 
plt.plot([0,1], [0,1], 'r-- ') i 
plt.xlim([-0.1,1.0]) 
plt.ylim([-0.1,1.01]) ' 
plt.ylabel('True Positive Rate') i 
plt.xlabel('False Positive Rate') e 


plt.savefig('Receiver Operating Characteristic', bbox inches- 


'tight') 
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plt.show() 
# 绘 制 最 优 模型 的 ROC 曲线 ,如 图 7.11 所 示 
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图 7.11 绘制 最 优 模型 的 ROC 曲线 


很 多 金融 机 构 并 非 按照 默认 的 违约 临界 点 来 判定 是 否 违约 ,或 作为 是 否 投 
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import itertools 
# 绘 制 混淆 矩阵 函数 
def plot_confusion_matrix(cm, classes, 
title='Confusion matrix', 
cmap=plt.cm.Blues): 
plt.imshow(cm, interpolation='nearest', cmap=cmap) 
plt.title(title) 
plt.colorbar() 
tick marks-np.arange (len (classes) ) 
plt.xticks(tick marks, classes, rotation=0) 
plt.yticks(tick marks, classes) 
thresh-cm.max() /2. 
fori, j initertools.product (range (cm. shape[0]), range (cm. shape 
[11)): 
plt.text(j, i, cm[i, j], 
horizontalalignment-"center", 
color="white" if cm[i, j]»thresh else "black") 
plt.tight layout () 
plt.ylabel('True label') 
plt.xlabel('Predicted label') 


return 


y pred proba-clf logreg.predict proba(X test) predict prob 获得 概 


AH 
thresholds- [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9] #7 F] i (fi 


plt.figure(figsize- (15,10)) 
HERBA [d BL (RF D ei E E, 如 图 7.12 所 示 
j=l 
for i in thresholds: 
y test predictions high recall-y pred_proba[:,1]>i # 预 测 出 来 的 概 
FEE AKT Bü (c 


plt.subplot (3,3,j) 
j + =1 


#Compute confusion matrix 
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cnf matrix- confusion matrix(y test, y test predictions high 


recall) 


np.set printoptions (precision-2) 


print("Recall metric in the testing dataset: 


(cnf matrix[1,0]* cnf matrix[1,1])) 


#Plot non-normalized confusion matrix 


class names- [0,1] 


plot confusion matrix(cnf matrix 


, Classes-class names 


, title-'Threshold »-$s' 


plt.ylabel('True label') 
plt.xlabel('Predicted label') 


from itertools import cycle 


Threshold >= 0.3 


527 1500 


0 1 
Predicted label 
Threshold >= 0.6 


0 1 
Predicted label 


Threshold >= 0.9 


54 
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Predicted label 


, cnf matrix[1,1]/ 


from sklearn.metrics import precision recall curve 


thresholds- [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9] 
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colors=cycle(['navy', 'turquoise', 'darkorange', 'cornflowerblue', 
'teal', 'red', 'yellow', ‘green’, 'blue','black']) 
plt.figure(figsize- (12,7)) 

$228] E BE FAY Roc 曲线 ,如 图 7.13 所 示 
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Threshold: 0.8, AUC=0. 82724 
Threshold: 0.9, AUC=0. 77818. 
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图 7.13 ANTAL BOER AY ROC 曲线 


j=1 
for i,color in zip(thresholds,colors): 
y_test_predictions_prob=y_pred_proba[:,1]>i# 预 测 出 来 的 概率 值 是 否 
KF a 
fpr, tpr, thresholds=roc_curve(y test,y test_predictions_prob) 
roc_auc=auc (fpr, tpr) 
# 绘 制 ROC 曲线 
plt.plot (fpr, tpr, color=color, 
label-'Threshold: $s, AUC-$0.5f' $(i , roc auc)) 
plt.ylabel('True Positive Rate') 
plt.xlabel('False Positive Rate') 
plt.ylim([0.0, 1.05]) 
plt.xlim([0.0, 1.0]) 
plt.title('Receiver Operating Characteristic') 


plt.legend(loc-"lower left") 


本 节 主 要 介绍 了 基于 场 外 脱 敏 数据 的 有 监督 机 器 学 习 模型 开发 方法 ,并 给 
出 了 多 种 机 器 学 习 技 术 的 模型 检验 结果 比较 。 需 要 指出 的 是 获取 稳定 的 场 外 数 
据 源 并 提取 相关 入 模 指 标 是 模型 开发 的 关键 ,由 于 涉及 商业 机 密 , 笔 者 对 数据 做 


基于 场 外 数据 的 主体 评级 简 型 开发 方法 


了 脱 敏 处 理 ,详细 的 处 理 方法 请 读者 自行 实践 。 


7.2 深度 学 习 开 发 模型 及 Python 源 代码 


由 本 书 2. 2 节 使 用 深度 学 习 做 分 类 算法 的 案例 可 知 , 使 用 基于 TensorFlow 
后 台 的 Keras 库 做 深度 学 习 非 常 方便 ,只 需要 几 行 代码 就 可 以 构建 深度 学 习 训 
练 模型 。 

本 节 主 要 向 读者 详 述 使 用 脱 敏 数据 集 做 分 类 任务 的 深度 学 习 模型 构建 方 
法 ,相关 Python 代码 如 下 所 示 。 


# 加载 所 需 Python 包 

import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

from keras.utils import np utils 

from keras.models import Sequential 

from keras.layers import Dense,Activation 
from keras.optimizers import RMSprop 

from imblearn.combine import SMOTEENN 
from imblearn.over sampling import SMOTE 


from sklearn.model selection import train test split 


# 加 载 数据 集 

input set-pd.read excel ("chapter7 data.xlsx") 

# 将 模型 划分 为 训练 集 和 测试 集 

X, Y=np.array(input_set.iloc[:,:-1]), np.array(input_set.iloc[:,-1]) 

X train, X test, Y train, Y test-train test split(X, Y, test size-0.3, 


random state-0) #random_state=0 每 次 切 分 的 数据 都 一 样 


# 过 采样 违约 样本 ,解决 样本 不 均衡 问题 
sm=SMOTE (kind- 'borderline2') 


X resampled, Y resampled-sm.fit sample(X train, Y train) 


y train-np utils.to categorical(Y resampled) 
y test-np utils.to categorical(Y test) 
# 构建 深度 学 习 模型 
model=Sequential ([ 
Dense (7, input dim-18), 
Activation ("relu"), 
Dense(2), 


Activation ("softmax") 
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1) 
# 深 度 学 习 优 化 
rmsprop=RMSprop (lr=0.001, rho=0.9, epsilon-1e-08, decay=0.0) 
# 编 译 深度 学 习 模 型 
model.compile ( 
optimizer=rmsprop, 
loss="categorical_crossentropy", 
metrics- ["accuracy"] 
) 
# 训 练 深度 学 习 模 型 ,共计 训练 20 次 
train process-model.fit(X resampled,y train,nb epoch-20,batch 
size=100) 
# 使 用 训练 好 的 模型 ,评估 测试 集 
loss,accuracy=model.evaluate(X_test,y test) 
# 输出 训练 结果 
print("\ntest loss:",loss) 
print ("\ntest accuracy:",accuracy) 
print ("\nAccuracy for mark all not default: ", (len (Y test)-sum(Y 
test))/len(Y test)) 
3 使 用 训练 得 到 的 模型 做 预测 


preds=model. predict_classes (X_test) 


sub set 1-X test[Y test --1] 
sub set 2-X test[preds --1] 


inter set-[] 


for item in sub set l.tolist(): 
if item in sub set 2.tolist(): 


inter set.append(item) 


coverage-len(inter set)/len(sub set 1) 
precentage bad-sum(preds)/len (preds) 

# 输 出 预测 结果 

print ("\nCoverage of default sample: ", coverage) 


print ("\nPrecentage of default preds: ", precentage bad) 


loss-train process.history['loss'] 

accuracy-train process.history['acc'] 

# 画 出 模型 训练 曲线 ,如 图 7.14 所 示 

epochs=range(len(accuracy) ) 

plt.plot (epochs, accuracy, 'bo', label='Training accuracy') 


plt.title('Training accuracy') 


基于 场 外 数据 的 主体 评级 税 型 开发 方法 


plt.legend() f 
plt.figure() = 
plt.plot (epochs, loss, 'b', label='Training loss") 

plt.title('Training loss') 


plt.legend() 
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图 7.14 分 类 深度 学 习 模 型 训练 结果 


由 图 7.14 所 示 的 训练 结果 曲线 可 知 , 随 着 训练 次 数 的 不 断 增加 ,模型 的 准 
确 率 逐 渐 提 升 、 损 失 率 逐渐 降低 。 


主体 评级 模型 开发 方法 


本 书 第 7 章 中 讲述 的 基于 场 外 真实 数据 的 评级 模型 开发 方法 的 前 提 是 获取 
这 些 场 外 数据 ,并 提取 相关 的 入 模 指标 。 但 是 , 场 外 数据 的 获取 和 加 工 需 要 较 强 
的 IT 技 能 ,这 对 非 计算 机 专业 出 身 的 量化 投资 研究 人 员 来 说 是 一 个 巨大 的 挑 
战 。 本 童 重点 讲述 通过 模型 结构 的 调整 和 优化 来 缓 释 财务 粉饰 造成 影响 的 方 
法 ,这 对 无 法 获取 场 外 真实 数据 的 量化 投资 研究 人 员 来 说 ,也 是 非常 实用 的 
方法 。 


8.1 基于 财务 数据 的 评分 卡 模型 缓 释 
财报 粉饰 的 基本 原理 


通常 情况 下 ,我 们 开发 信用 债 发 行 主体 的 评级 模型 时 ,重点 考虑 的 是 发 债主 
体 最 近 1 年 中 各 季度 财务 变化 的 情况 ,及 其 对 发 行人 还 款 能 力 的 影响 。 但 是 ,由 
于 企业 财报 粉饰 现象 的 普遍 存在 ,这 种 仅仅 考虑 最 近 1 年 财务 数据 的 评分 卡 模 
型 ,时 常会 产生 较 大 的 误 判 情况 。 因 此 ,本 节 详 细 讲述 的 是 笔者 多 年 研究 的 针对 
目前 国内 市 场 降低 财务 数据 粉饰 对 企业 信用 评估 影响 的 实用 方法 。 

笔者 研究 发 现 , 已 经 被 证 实 存在 财务 粉饰 公司 的 财务 指标 一 般 表现 为 波动 
性 大 ,为 了 缓 释 财务 粉饰 带 来 的 负面 影响 ,在 模型 结构 设计 时 我 们 一 般 需 要 输入 
最 近 3 年 的 财务 数据 ,以 便于 衡量 被 评估 主体 的 财务 波动 性 情况 。 模 型 输入 部 
分 的 结构 设计 ,如 表 8. 1 所 示 。 


表 8.1 输入 3 年 企业 财务 数据 


类 别 指标 2014 年 财务 数据 | 2015 年 财务 数据 |2016 年 财务 数据 
净 资产 收益 率 ( 平 均 ) 1.5311 —9, 602 9 一 55. 679 7 
盘 利 能 力 
营业 利润 /营业 总 收入 | 一 8.430 3 —16, 521 3 — 10. 627 7 
收益 质量 | 所 得 税 / 利 润 总 额 13. 106 94 11.095 616 67 |14. 903 52 
现金 流量 | 全 部 资产 现金 回收 率 1.62 736 206 一 0.679 165 481 |2.038 559 54 
资本 结构 | 长 期 资本 负债 率 14.495 305 66 | 9.879 661 979  |14.307 537 17 
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模型 的 定量 评分 由 三 部 分 构成 ,分 别 是 由 最 近 1 年 财务 数据 得 到 的 同行 业 
评分 .由 最 近 3 年 财务 数据 得 到 的 趋势 评分 和 由 最 近 3 年 财务 数据 得 到 的 波动 
率 评分 。 这 样 ,我 们 强制 人 模 指 标的 趋势 和 波动 率 进入 模型 ,就 可 较 大 程度 地 降 
低 仅仅 采用 财务 数据 本 身 时 ,由 于 财务 粉饰 对 模型 造成 的 影响 。 

模型 定量 的 第 一 部 分 是 同行 业 得 分 ,如 表 8. 2 所 示 。 该 部 分 中 每 个 指标 的 e 
得 分 是 通过 查询 表 8.3 所 示 的 、 通 过 统计 同行 业 数 据 得 到 的 评分 表 得 到 的 。 

表 8.2 基于 最 新 1 年 财务 数据 评分 


第 ! 

续 表 a) 

Ral 指标 2014 年 财务 数据 | 2015 年 财务 数据 |2016 年 财务 数据 了， 

i 

UE pe i 

pee 经 营 活动 产生 的 现金 流 0.627 9 POTES 0.025 8 i 
ERREN | 量 净 额 /负债 合计 "s ; Mad 
应 付 财 款 周转 天 数 68.966 534 25 |92.459 574 81 |118.383 005 1 i 

营运 能 力 i 
总 资产 周转 率 0.366 7 0.379 8 0.385 8 

Ve VE zi d ng s y ! 

筹资 活动 产生 的 现金 流 356 565 511.6 | 一 197 191 351. 7 | 一 126 263 627.6 i 

量 净 额 i 

xt 投资 活动 产生 的 现金 流 
资 活动 产生 的 现金 济 E E oes i 

EAM 66 501 524. 58 37 849 167. 67 |—28 225 730. 87 

i 

i 

i 

i 

i 

i 

i 


同行 业 指标 得 分 

净 资 产 收益 率 (平均 ) 0 
WARE 71 

营业 利润 /营业 总 收入 0 
收益 质量 所 得 税 / 利 润 总 额 60 
现金 流量 全 部 资产 现金 回收 率 50 
资本 结构 长 期 资本 负债 率 60 
偿 债 能 力 经 营 活动 产生 的 现金 流量 净 额 /负债 合计 40 

应 付 账 款 周转 天 数 90 
营运 能 力 

总 资产 周转 率 50 

筹资 活动 产生 的 现金 流量 净 额 10 
规模 效应 

投资 活动 产生 的 现金 流量 净 额 10 


表 8.3 所 示 的 同行 业 得 分 表 是 通过 全 行业 数据 统计 计算 得 到 的 ,详细 的 计 
算 方 法 在 8.2 节 有 详 述 ,并 附 上 了 详细 的 Python 代码 。 
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表 8.3 最 新 1 年 财务 数据 评分 表 


同行 业 得 分 10 20 30 40 50 
净 资 产 收益 率 | -9433 127 273 | 0. 468 672 727 | 1.176 354545 | 1.608 872 727 | 2.576 872 727 
AH | (平均 ) 
能 力 
BON BÀ. | 28.077 145 45 | —12. 280 209 09 | —3. 294 709 091 0.112 790 909 | 1. 495 463 636 
收益 | 所 得 税 /利润 | o.323 136 364] 1.221 145.455] 3.042 345 455 | 7.002054 545 | 10.302 518 18 
质量 | 总 额 
现金 | 全 部 资产 现金 国 g 456 245 098 | —2. 117 532 123 |—0.399 965 027 | 0.648 489 226 | 1.959 663 247 
流量 | 收 率 
资本 
结构 长 期 资本 负债 率 | 52.364 539 83 | 40.420 454 91 30.857 196 2 | 25.687 970 35 | 21.415 392 56 
git 经 营 活动 产生 的 
能 力 现金 流量 净 额 / | 一 0.168 527 273 一 0.010 363 636 | 0.013 536 364 | 0.043 463 636 
负债 合计 
营运 MIA | 12.533 617 27 28.493 848 35 35.431 404 7 | 44.052 348 93 
能 力 
总 资产 周转 率 0.075 554 545 0.279 245 455 | 0. 359 854 545 
筹资 活动 产生 的 | 236 923 726.3 | 一 82 027 886. 46 | —27 646 754.17 | 5 848 002.459 62 362 543.1 
规模 | 现金 流量 净 额 
效应 | 投资 活动 产生 的 
23 193 276.31 | —30 281 540. 58 | —55 950 209. 33 |—107 878 410.4 | 一 175 543 100 
现金 流量 净 额 
LLLI) a | » | » | >» w 
净 资 产 收益 率 | 3.558 190 909 | 4.961 090909 6.379 463 636] 12.611 236 36 18.6945 
an | (平均 ) 
能 力 
doin 3.268 972 727 | 6, 012 681 818 202 572 727 | 16.508 854 55 | 27.230 636 36 
收益 | 所 得 BUM 润 | 12.793 790 91 | 16.151 127 27 19.680 386 6 | 25.498 763 64 | 37.114 590 91 
质量 | 总 额 
现金 | 全 部 资产 现金 回 | 80 194 011 | 4.744 680 995 | 7.530 803 378 | 10.813 541 85 | 14.935 225 51 
流量 | 收 率 
长 期 资本 负债 率 | 15.814 519 38 | 10.359 330 64 | 7.270 926 483 | 4.005 518 836 2.376 947 52 
eit 经 营 活动 产生 的 
能 力 现金 流量 净 额 / | 0.0717 363 64 | 0. 125 363 636 0.248 945 455 | 0. 415 545 455 
负债 合计 
营运 ebd 账 款 周转 | 56.755 08416] 64.686 789 32 | 78.586 108 06 | 96.269 843 47 | 125. 764 542 9 
能 力 
总 资产 周转 率 0.426 563 636 | 0.485 136 364 | 0.593 072 727 | 0.719 272 727 1.079 8 
筹资 活动 产生 的 | 173 218 429.6 336 931199 | 562 067 135.7 | 1061 340 827 | 1 743 254 582 
规模 | 现金 流量 净 额 
效应 | 投资 活动 产生 的 
一 250 293 022.1 | —422 700 168.1 | 一 635 665 780.2 | 一 952 449 458.9 | 一 1 791 786 833 
现金 流量 净 额 


R 8. 4 是 计算 每 个 人 模 指 标 最 近 3 年 趋势 变化 的 得 分 表 。 在 计算 趋势 得 分 
时 ,我 们 需要 首先 计算 每 个 指标 最 近 3 年 的 变化 趋势 ,计算 公式 为 


Trend(p) = 100 X 


P2016 — P2014 
ABS( p214 ) 


(8.1) 
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表 8.4 计算 最 近 3 年 财务 数据 趋势 的 变化 eet 

Fi 

趋势 指标 绝对 增长 率 得 分 
净 资 产 收益 率 ( 平 均 ) 一 3 736. 581 543 0 ' 

ALARE 1 
营业 利润 /营业 总 收入 一 737.783 946 0 

收益 质量 | 所 得 税 / 利 润 总 额 13. 707 089 53 50 : 
现金 流量 | 全 部 资产 现金 回收 率 25. 267 731 74 50 i 
资本 结构 | 长 期 资本 负债 率 一 1.295 374 425 70 i 
偿 债 能 力 | 经 营 活动 产生 的 现金 流量 净 额 /负债 合计 —7, 526 881 72 40 
应 付 账 款 周转 天 数 71. 652 826 09 80 i 

营运 能 力 i 
总 资产 周转 率 5.208 617 398 80 ' 

筹资 活动 产生 的 现金 流量 净 额 一 135. 411 060 1 10 | 

规模 效应 i 
投资 活动 产生 的 现金 流量 净 额 — 142.443 735 70 | 


然后 ,再 通过 查询 表 8. 5 所 示 的 趋势 变化 评分 表 得 到 的 趋势 变化 的 得 分 。 
K 8.5 所 示 的 趋势 变化 评分 表 的 计算 方法 ,将 会 在 8. 2 节 中 详 述 并 提供 Python 


源 代 码 。 
表 8.5 最 近 3 年 财务 趋势 变化 评分 表 

收益 率 | _187.489 597 6 | 一 81.595 000 9 63.763 921 5 | 一 55.025 414 27 |—39.042 941 22 
BA 
能 力 

ida —547.847 317 4 | —158. 957 181 8 | 一 83. 661 840 43 | —5 014 721 872 | — 27.128 560 15 
be dad 税 / 利 E oo 699 124 31 | —62.794 813 22 | 一 39.533 116 1|—11.620 061 24 | 6.765 720 855 
e "rio 一 212. 596 982 8 | — 114.629 193 3 | — 77.080 528 82 | — 39.332 978 95 | — 9. 552 148 149 
it 长 期 资本 负债 率 | 487.528 673 4 | 145.687 104 5 | 79.225 782 28 | 44.139 364 11 | 22.269 118 43 
et 经 营 活动 产生 的 
能 力 现金 流量 净 额 / | 一 246.961 273 5 | 一 111. 248 886 | 一 80.524 357 07 | —40. 296 409 8 7 064 462 098 

负债 合计 
营运 ae 账 款 周转 | -37.354 925 05 | —19. 931 331 48 | —10. 891 746 68 | —1. 874 760 966 | 8. 707 126 234 
能 力 

总 资产 周转 率 ”| 一 47. 518 500 22 | —35. 191 141 28 | 一 29. 407 078 66 | 一 22. 563 298 52 | 一 16.553 694 61 
MNA 一 226. 148 156 | —135.335 176 9 | — 89.353 901 26 | —49. 733 902 97 | —8. 988 723 372 
效应 E 

spicae 115.604 348 7 | 84.633 623 66 | 51.152919 02| 21.182 798 32 | —3. 975 238 355 
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趋势 得 分 60 70 80 90 100 

净 资产 收益 率 | -22.585 030 89 |—9. 205 968 568 | 38.959 684 43 | 113.283 4062] 244. 294 2227 
BA | CRED 
能 力 

biais —6.869 09173 | 12.689 599 06 40.037 203 2| 83.602 265 71 | 226.774 8112 
收益 | 所 得 税 / 利 2. 502 909 71] 42.669 859 92 | 78.733873 04 | 173.923 7842 | 473.351 7525 
质量 | 总 额 
现金 | 全 部 资产 现金 国 | 34.992 570 04| 84.149 824 34| 125.770 7339| 236.919 0288 | 374.346 665 9 
流量 | 收 率 
资本 
结构 长 期 资本 负债 率 | 10.599 515 28] 1.019 113 322 | 一 28.748 955 29 —44.629 484 | — 72.549 131 65 
ett 经 营 活动 产生 的 

现金 流量 净 额 / | 36.829 810 89 | 95.805 191 98 | 128.271 1784 | 230.705 0905 | 471.922 2617 
能 力 ve. 

负债 合计 
Hz one 账 款 周转 | 24.049 640.06 | 40.036 382 66 | 57.829865 71| 104.934 8275] 200. 097 452 4 
能 力 

总 资产 周转 率 ”| 一 11.760 283 26 | 一 7. 400 458 528 | 2.160 873 173 | 13.662 980 71 | 25.596 692 25 

筹资 活动 产生 的 64.531 18438 | 101.976 2805 | 163.844 6433 | 418.954 3792 | 1561.822 505 
规模 | 现金 流量 净 额 

应 mpm 

效应 | 投资 活动 产生 的 一 44.153 023 15 一 205.691 161 3 | 一 355. 309 129 3 | 一 842. 446 732 4 


现金 流量 净 额 


表 8. 6 是 计算 每 个 人 模 指标 最 近 3 年 波动 率 变化 的 得 分 表 。 在 计算 波动 率 
得 分 时 ,我 们 需要 首先 计算 每 个 指标 最 近 3 年 的 波动 率 变 化 趋势 ,计算 公式 为 


Volatility(p) 


波动 率 


= STDEV ( pz + P2015 + P2016) 
IFCABSCAVERAGE( foi ,jos + Pos)? = 0,0. 0001, ABSCAVERAGE( pros ,jos + Pois D) 


表 8.6 


计算 最 近 3 年 财务 变化 的 波动 率 


均值 的 绝对 值 标准 差 


标准 差 / 
(均值 的 绝对 值 ) 


(8.2) 


净 资 产 收 益 率 (平均 ) 


21.250 5 | 30.331 812 48 


1.427 345 826| 20 


便利 能 力 


营业 利润 /营业 总 收入 


31. 859 766 67 33. 816 868 


1.061 428 615| 30 


收益 质量 | 所 得 税 /利润 总 额 


13.035 358 89 | 1.904 960 588 


0. 146 137 947| 90 


现金 流量 | 全 部 资产 现金 回收 率 


0. 995 585 373 1. 464 876 67 


1. 471 372 23| 40 


资本 结构 | 长 期 资本 负债 率 


12. 894 168 27 | 2.612 326 623 


0. 202 597 528| 70 


ae 
ns (5 Babe 经 营 活动 产生 的 现金 0 m 
«t i F . 013 933 333 | 0.022 396 949 | 1.607 743 654 5| 30 
ETT ren Mii idol 

应 付 账 款 周转 天 数 93.269 704 72 | 24. 718 194 32| 0.265 018 469| 40 
营运 能 力 


0.377 433 333 | 0.009 767 463 


0.025 878 644| 100 
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标准 差 / 
(均值 的 绝对 值 ) 


波动 率 均值 的 绝对 值 标准 差 


筹资 活动 产生 的 现金 
流量 净 额 

投资 活动 产生 的 现金 
流量 净 额 


11 036 844.09 301 330 766 27.302 258 1| 0 


142 208. 68 | 57 669 937.91 405. 530 365 1| 0 


4b. K 8.7 所 示 的 波动 率 变化 评分 表 的 计算 方法 ,将 会 在 8.2 节 中 详 述 并 提供 
Python 源 代码 。 
表 8.7 最 近 3 年 财务 波动 率 变化 评分 表 


然后 ,再 通过 查询 表 8.7 所 示 的 波动 率 变化 评分 表 得 到 的 波动 率 变化 的 得 | 


净 资产 收益 率 | 3.500 327 802| 2.132755 642 300 423 408 | 1.002 503 416 | 0. 652 357 352 
BUR | (平均 ) 
力 
= giles 3.963 563 018 1.033 031602 | 0, 848 984 898 
收益 | 所 得 税 / 利 润 | 1.421 992 643] 1.121 580 394 91 053 212 | 0.758 944 878 | 0.571 698 211 137 
质量 | 总 额 137 
现金 | 全 部 资产 现金 回 | coo 964 177 | 2.585 244772 1.866 918 72 | 1.514 738 014 1.139 615 99 
流量 | 收 率 
on 长 期 资本 负债 率 | 0.982586 097] 0.729 466 288 53 335 983 | 0.458 011 586 | 0,351 352 114 
eit 经 营 活动 产生 的 
现金 流量 净 额 /| 5.548 785 743 | 2.592015 715 | 1.954 733 365 | 1.560 529 676 | 1.195 966 669 
能 力 Put 
负债 合计 
Hu pd ERKA) o.661 olo 611 | 0.458 158395 | 0.332 764109 | 0.269051 874] 0.235 686 331 
能 力 
总 资产 周转 率 0.434 042 867 | 0.288 014 666 | 0.241 151 586 | 0.207 323 287 | 0.169 308 094 
筹资 活动 产生 的 5.862 234 14 | 2.628 712925 | 1.990 393 746 | 1.632 514 456 | 1.397 343 042 
规模 | 现金 流量 净 额 
效应 | 投资 活动 产生 的 
2.874 594 386 | 1.665 365067| 1.256 265957] 0.984 173 449 | 0.816 170 386 
现金 流量 净 额 i 
波动 率 得 分 60 70 80 90 100 
净 资产 收益 率 | 0.516 656 015 | 0.422 323 002 | 0.302 366376| 0.211 118 246 | 0.135 400 398 
盈利 | (平均 ) 
能 力 
hh 润 /营业 | 0.539 389 349 | 0.381 464 694] 0.273 732 203 0.195 117554 | 0.102 266 499 
收益 | 所 得 税 / 利 润 | o.489 508 446 | 0.302 495 77 0.285 274 14 | 0.191 351 312 | 0.125 597 669 
质量 | 总 额 
AS | 全 部 资产 更 合同 0.925 106 4 | 0.743 076 002 | 0.538 717 765 | 0.383 842 772 | 0.265 938 922 
流量 | 收 率 
pes 长 期 资本 负债 率 | 0.285 566 096 | 0.213 735 544 | 0.172 754 038 | 0.115 470 554 | 0. 068 764 767 
git 经 营 活动 产生 的 
现金 流量 净 额 /| 0.933 842 898 | 0.750 139 551 | 0.585 366 667 | 0.403 684 433 | 0.280 349 759 
能 力 | 负债 合计 
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60 70 80 90 100 


波动 率 得 分 


营运 ed KERN | 0.192 328 429 | 0.162 165 463 | 0.131 551 369 | 0. 100 922 635 0.076 878 59 
能 力 
总 资产 周转 率 | 0.136 442 644 | 0.116 029 517 | 0.085 994 061 | 0.071 906 905 | 0. 059 074 521 
筹资 活动 产生 的 


1.169 245 731 0. 942 749 615 0. 752 314 548 0.573 779 868 0. 332 657 966 


规模 | 现金 流量 净 额 


效应 | 投资 活动 产生 的 
现金 流量 净 额 


0.714 524 857 0. 603 010 223 0. 471 573 231 0. 335 588 94 0. 211 096 665 


DORE ,汇总 上 述 三 部 分 的 得 分 , 即 为 模型 中 定量 部 分 的 总 得 分 ,如 表 8. 8 所 
示 。 模 型 定量 总 得 分 中 各 指标 权重 的 计算 方法 ,将 会 在 8. 2 节 中 详 述 并 提供 
Python 源 代 码 。 


表 8.8 模型 定量 部 分 评分 汇总 


定量 得 分 权重 | 得 分 | 加 权 得 分 
净 资 产 收益 率 ( 平 均 ) 3.5% | 0 0.0 
J&A FE 77 
营业 利润 /营业 总 收入 3.3%] 0 0.0 
收益 质量 | 所 得 税 / 利 润 总 额 4.2% | 60 2.5 
现金 流量 | 全 部 资产 现金 回收 率 3.6% | 50 1.8 
er 资本 结构 | 长 期 资本 负债 率 3.5% | 60 2:1 
iH] fT M 
REJ | 经 营 活动 产生 的 现金 流量 净 额 /负债 合计 | 4.326 | 40 i7 
应 付 账 款 周转 天 数 3.3% | 90 3.0 
营运 能 力 
总 资产 周转 率 4.1% | 50 2.1 
筹资 活动 产生 的 现金 流量 净 额 1.7% | 10 0.2 
规模 效应 
投资 活动 产生 的 现金 流量 净 额 1.3% | 10 0.1 
净 资产 收益 率 ( 平 均 ) 3.0% 0 0.0 
AAI GE 77 E 
营业 利润 /营业 总 收入 2.5% | 0 0.0 
收益 质量 | 所 得 税 /利润 总 额 3.2% | 50 1.6 
现金 流量 | 全 部 资产 现金 回收 率 2.5% | 50 1.3 
as 资本 结构 | 长 期 资本 负债 率 2.1% | 70 1.5 
i 
偿 债 能 力 | 经 营 活 动产 生 的 现金 流量 净 额 /负债 合计 | 2.9% | 40 1,2 
应 付 账 款 周转 天 数 2.6% | 80 PA 
营运 能 力 
总 资产 周转 率 3.3% | 80 2.6 
筹资 活动 产生 的 现金 流量 净 额 2.3% | 10 0.2 
规模 效应 
投资 活动 产生 的 现金 流量 净 额 3.5% | 70 2.5 


宝 体 评 级 简 型 开发 方法 


BER 
定量 得 分 得 分 | 加 权 得 分 

净 资 产 收益 率 ( 平 均 ) 20 0.5 

AAI RE 7] 
营业 利润 /营业 总 收入 30 i 
收益 质量 | 所 得 税 / 利 润 总 额 90 4. 4 
现金 流量 | 全 部 资产 现金 回收 率 40 es 
资本 结构 | 长 期 资本 负债 率 70 3.0 

波动 率 

偿 债 能 力 | 经 营 活动 产生 的 现金 流量 净 额 /负债 合计 30 1.1 
应 付 账 款 周转 天 数 40 252 

营运 能 力 
总 资产 周转 率 100 4.2 
筹资 活动 产生 的 现金 流量 净 客 0 0.0 

规模 效应 
投资 活动 产生 的 现金 流量 净 额 0 0.0 


模型 定性 部 分 开发 的 基本 原理 是 AHP 法 (AHP 法 的 详细 介绍 ,请 见 
另外 一 本 书 《 基 于 R 语言 的 证 券 公 司 信 用 风险 计量 和 管理 ) 中 第 五 章 第 一 节 的 
内 容 )。 在 定性 部 分 的 层次 设计 中 ,我 们 通常 分 为 两 层 ,第 一 层 是 准则 层 ,包括 该 
行业 的 产业 属性 和 公司 属性 两 部 分 ;第 二 层 是 指标 层 ,分 别 将 准则 层 中 的 两 部 分 
细 化 到 不 同 的 定性 指标 。 模 型 定性 部 分 的 结构 设计 ,如 表 8.9 所 示 。 模 型 定性 
总 得 分 中 各 指标 权重 的 计算 方法 ,将 会 在 8.2 节 中 详 述 并 提供 Python 源 代 码 。 


指标 层 


层 | 评估 指标 


表 8.9 模型 定性 部 分 评分 汇总 
机 构 定 性 评分 
指标 和 得 分 


选项 说 明 


oat 


Sih 
b 
En 


指标 最 
终 权 重 


笔者 


经 济 政策 
影响 


> RHE + 


A. 良好 的 宏观 经 济 环境 ,国家 有 政 
CBE ,行业 发 展 可 持续 增长 


B. 稳定 的 宏观 经 济 环境 ,国家 有 政策 
支持 ,行业 发 展 稳定 


C. 比较 稳定 的 宏观 经 济 环境 ,基本 不 
受 政策 影响 ,行业 发 展 有 小 幅 波 动 


D. 较为 波动 的 宏观 经 济 环 境 , 受 政策 
影响 较 大 ,行业 发 展 有 较 大 幅 波动 


E. 较 大 波动 的 宏观 经 济 环境 , 受 政策 
影响 很 大 ,行业 发 展 有 剧烈 波动 


A| 100 


11.3% 


机 构 定 性 评分 


指标 层 指标 和 得 分 


层 | 评估 指标 


qz 


选项 说 明 


A. 受 经 济 周期 的 影响 很 小 


By RAK RE ae By Te dE 
m 
#0 
发 


^ B. 受 经 济 周 期 的 影响 较 小 
» 属 | 经 济 周期 性 | P2] C. 受 经 济 周期 的 影响 一 至 B| 80 | 8.7% |7.0 
is D. 受 经 济 周期 的 影响 较 大 
2 E. 受 经 济 周期 的 影响 很 大 
8 A. 中 央 国 有 企业 
1 五 
T B. 地 方 国有 企业 或 公众 企业 
tae 公司 性 质 [Pa| C. 中 外 合资 企业 或 外 商 独资 企业 |B] 80 | 8.0% [6.4 
PN D. 民营 企业 
E. 其 他 企业 
A. <=10% 
^ B. >10%R<=20% 
= 对 外 担保 余 | L— 一 
性 额 占 净 资产 |P4| C. 205 &— A| 100 | 7.4% |7.4 
yi "n 的 比例 D. >30%R<=40% 
F AN 
司 >40% 
: 核心 管理 层 A. 近 3 年 没有 发 生 股东 变更 
性 | 二 全 [ps A| 100 | 8.3% |8.3 
A2| 变动 B. dE 3 年 有 发 生 股东 变更 
mekel [is 
E P6 B| o | 12.0% |0.0 
执行 BR 
mikel |a s 
fii P7 A| 100 | 12.0% |12.0 
Hn a 


或 起 诉 欠 款 | |B 是 


近 1 年 来 是 A. 否 
否 存 在 被 股 |P8 A| 100 | 12.0% |12.0 
东 起 诉 B. 是 


FE APL EI IP Ke T3 34s 


机 构 定 性 评分 
" 指标 层 指标 和 得 分 
则 = eee ES 
=| wm - | 符 5 选 | 指标 | 指标 最 
层 | 评估 指标 号 选项 说 明 项 | 得 分 | 终 权重 加 权 
得 分 
近 1 年 来 是 | |A, 5 
否 存在 被 小 |P9 A| 100 | 12.0% |12.0 
机 家 GE CES [8] fF E 
构 贷 ) 公 司 起 诉 是 
定 | 业 
性 | 属 A. 近 3 年 招聘 职位 数 之 15 
评 | 性 
分 | a B. 5< 3 年 招聘 职位 数 < 一 15 
F |A2 | 招聘 信息 “pl ——————— ———————————Àn| 0 8.3% |0.0 
C. 0 二 近 3 年 招聘 职位 数 二 二 5 
D. 近 3 年 招聘 职位 数 =0 
机 构 定性 得 分 : |76.4 


信用 风险 评级 模型 包括 定量 .定性 和 综合 调整 三 部 分 ,综合 调整 部 分 主要 是 
为 了 缓 释 信用 风险 自身 的 滞后 性 所 设计 的 。 因 为 ,模型 开发 所 需 的 入 模 指 标 必 
须 有 稳定 的 数据 源 才 行 ,而 这 些 数据 源 的 提供 往往 在 很 大 程度 上 依赖 于 发 债主 
体 自身 的 披露 。 在 目前 国内 资本 市 场 信息 披露 机 制 不 完善 的 情况 下 ,企业 经 常 
选择 性 披露 相关 信息 ,对 企业 还 款 能 力 影响 较 大 的 信息 ,时常 突 发 披露 。 

因此 ,为 了 缓 释 这 种 影响 较 大 的 突 发 事件 ,我 们 设计 了 模型 的 综合 调整 部 
分 ,如 表 8. 10 所 示 。 综 合 调整 部 分 各 指标 的 调整 幅度 ,需要 根据 各 行业 的 不 同 
属性 做 不 同 的 调整 。 


R810 模型 综合 调整 部 分 


定量 总 得 分 44.07 

定性 总 得 分 76.35 

总 得 分 47.06 
初始 内 部 等 级 10 
Ai 1 FATA RERRAKEES Im o 
最 近 半 年 被 执行 次 数 占 总 数 的 比 无 被 执行 记录 0 
最 近 半年 失信 被 执行 次 数 占 总 数 的 比 | 无 失信 被 执行 记录 0 
初始 调整 后 内 部 等 级 10 
财报 的 质量 标准 无 保留 意见 0 
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综 上 ,本 节 重 点 介绍 的 是 缓 释 财务 粉饰 的 模型 架构 设计 方法 。 在 实际 的 模 
型 开发 过 程 中 ,我 们 需要 首先 依据 最 新 一 年 的 财务 数据 和 标记 的 违约 样本 做 人 
模 指 标 筛选 , 待 确定 入 模 指标 后 ,需要 将 这 些 指 标的 趋势 和 波动 率 变化 趋势 指标 
强制 进入 模型 ,来 开发 评分 卡 模型 。 详 细 的 模型 开发 步骤 和 方法 , 见 8.2 节 。 


8.2 升级 版 主体 评级 模型 开发 方法 
及 Python 源 代码 


本 节 在 8. 1 节 介 绍 缓 释 财务 粉饰 对 企业 信用 评级 模型 开发 影响 的 基础 上 ， 
重点 详细 介绍 该 类 升级 版 模型 的 开发 方法 ,并 给 出 了 详细 的 Python 源 代码 。 
运行 本 节 的 代码 前 ,需要 按照 本 书 第 6 章 中 介绍 的 方法 建设 数据 库 并 下 载 所 有 
所 需 的 数据 之 后 ,才能 直接 运行 。 本 段 代码 可 直接 生成 8. 1 节 中 介绍 的 评分 卡 
模型 的 Excel 版 本 ,请 读者 认真 研究 。 


# 加 载 所 需 的 Python f 

import pymysql 

import numpy as np 

import pandas as pd 

import openpyxl 

import copy 

import csv 

import math 

from openpyxl.utils.dataframe import dataframe_to_rows 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.linear_model import LogisticRegression 
from sklearn.model selection import GridSearchCV 


from sklearn import cross validation, metrics 


# 配 置 数据 库 链接 。 需 要 特别 说 明 的 是 ,本 段 代 码 不 能 直接 运行 ,需要 首先 按照 本 书 
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综 上 ,本 节 重 点 介绍 的 是 缓 释 财务 粉饰 的 模型 架构 设计 方法 。 在 实际 的 模 
型 开发 过 程 中 ,我 们 需要 首先 依据 最 新 一 年 的 财务 数据 和 标记 的 违约 样本 做 人 
模 指 标 筛选 , 待 确定 入 模 指标 后 ,需要 将 这 些 指 标的 趋势 和 波动 率 变化 趋势 指标 
强制 进入 模型 ,来 开发 评分 卡 模型 。 详 细 的 模型 开发 步骤 和 方法 , 见 8.2 节 。 


8.2 升级 版 主体 评级 模型 开发 方法 
及 Python 源 代码 


本 节 在 8. 1 节 介 绍 缓 释 财务 粉饰 对 企业 信用 评级 模型 开发 影响 的 基础 上 ， 
重点 详细 介绍 该 类 升级 版 模型 的 开发 方法 ,并 给 出 了 详细 的 Python 源 代码 。 
运行 本 节 的 代码 前 ,需要 按照 本 书 第 6 章 中 介绍 的 方法 建设 数据 库 并 下 载 所 有 
所 需 的 数据 之 后 ,才能 直接 运行 。 本 段 代码 可 直接 生成 8. 1 节 中 介绍 的 评分 卡 
模型 的 Excel 版 本 ,请 读者 认真 研究 。 


# 加 载 所 需 的 Python f 

import pymysql 

import numpy as np 

import pandas as pd 

import openpyxl 

import copy 

import csv 

import math 

from openpyxl.utils.dataframe import dataframe_to_rows 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.linear_model import LogisticRegression 
from sklearn.model selection import GridSearchCV 


from sklearn import cross validation, metrics 


# 配 置 数据 库 链接 。 需 要 特别 说 明 的 是 ,本 段 代 码 不 能 直接 运行 ,需要 首先 按照 本 书 


EWORK 


6. 1 节 中 介绍 的 数据 库 配 置 并 抓 取 相 关 数 据 后 ,本 段 代码 才能 直接 运行 。 


config={ 


“Kp 00 AN; 


"host':'localhost', 

“port” = 3306, 

"user':'test', 

'passwd':'admin', 

'db'i*'eredditrisk', 

'charset':'gbk', 
'cursorclass':pymysql.cursors.DictCursor 
} 


con-pymysql.connect (**config) 


# 读 取 Excel 文件 

def readwb (wbname, sheetname) : 
wb-openpyxl.load workbook(filename-wbname,read only-True) 
if (sheetname--""): 


T 
1 
' 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
' 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
' 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 

ws=wb.active ! 

1 


else: 
ws-wb[sheetname] ( 3 


data=[] 

for row in ws.rows: 
list=[] 
for cell in row: 


aa-str(cell.value) 


if (aa==""): 
aa="1" 
list.append(aa) 


data.append(list) 


print (wbname +"- "+sheetname+"- 已 成 功 读 取 ") 


return data 


标记 违约 债券 时 ,我 们 使 用 Wind f; [ESTES BRAS 
用 债 研究 中 的 “负面 事件 报表 ”违约 债券 | Del noctium nsee am Pee 
[EE] cBBC.OO CBBC BANCORP 

报表 ”和 “违约 竞 付 报表 ”中 的 债券 发 行 主 E EE 
体 。 首 先 , 在 Wind 首页 窗口 右 下 角 输 入 | o demde Dioecesis 
“BCBA”, 并 按 回 车 键 ,如 图 8. 1 所 示 。 

在 弹出 的 “信用 债 研究 ”窗口 中 ,分 
别 选择 “负面 事件 报表 ”违约 债券 报表 ” 
和 “违约 兑付 报表 ”, 并 将 这 三 张 表 分 别 
导出 到 Excel 文件 中 ,如 图 8. 2 所 示 。 


图 8.1 Wind 信用 债 研 究 
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图 8.2 导出 违约 和 负面 事件 列表 


elma lle lel a 
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BB) 


# 标记 实质 性 违约 样本 
def mark_default (preprocessed_set): 

# 读 取 图 8.2 中 导出 的 三 张 报表 ,此 处 假设 这 三 张 报表 的 存放 位 置 为 D:/Temp/ 风 
控 模 型 

default_list_1=readwb("D:/Temp/ 风 控 模 型 /负面 事件 报表 .xlsx","wind 
资讯 ") 

default_list_l=pd.DataFrame (default_list_1[1: (len(default_list 
_1)-2)],columns=default_list_1[0]) 

default list 2-readwb("D:/Temp/JA f Ei  /i6 29 HITRE . xlsx", "Wind 
资讯 ") 

default list 2=pd.DataFrame (default list 2[1: (len(default list 
.2)-2)],columns-default list 2[0]) 

default list_3=readwb("D:/Temp/ 风 控 模 型 /违约 债券 报表 .xlsx","wind 
资讯 ") 

default list 3-pd.DataFrame (default list 3[1: (len(default_list 
.3)-2)],columns-default list 3[0]) 


default list sub 1-pd.DataFrame(('COMP NAME':default list 1 
UEÍTA'], 'Date':default list 1[' 发 生日 期 '] }, columns=['COMP_NAME', 
'Date']) 

default_list_sub_2=pd.DataFrame ({'COMP_NAME':default_list_2 
[' 发 行人 全 称 ']，'Date' :default list 2[' 付 息 日 ']},columns=['COMP_NAME', 
'Date']) 

default list sub 3-pd.DataFrame(('COMP NAME':default list 3 
('R4TA'], 'Date':default list 3[' 发 生日 期 ']],columns= ['COMP NAME', 


主体 评级 税 型 开发 方法 
T 


'Date']) 


default list- default list sub l.append(default list sub 2). 
append(default list sub 3).drop duplicates() 
default list- default list.sort values (['COMP_NAME', 'Date'], 


ascending-True) 


distinct list-pd.DataFrame () 
distinct list-distinct list.append (default list.iloc[1,]) 
# 删 除 重复 的 公司 
for i in range(1,len(default_list)): 
if default list.iloc[i,0] in list(distinct list.COMP NAME): 
continue 
else: 


distinct list-distinct list.append (default list.iloc 


distinct list.Date-distinct list.Date.astype(str) 
for i in range(len(distinct list)): 
distinct list.Date.iloc[i]-distinct list.Date.iloc[i][0:4] 


distinct list.Date-distinct list.Date.astype(int) 


# 标 记 违约 债券 的 发 行 主体 为 1, 不 违约 为 0 
data_set=copy.copy (preprocessed set) 
data_set['isDefault']=0 


data set.rptDate-data set.rptDate.astype (str) 


fori in range(len(data set)): 


if data set.COMP NAME.iloc[i] in list (distinct list.COMP. 


NAME) and int (data set.rptDate.iloc[i][0:4]) > -distinct list 
[distinct list['COMP NAME']--data set.COMP NAME.iloc[i]].Date. 
iloc[0]-1: 


data set.isDefault.iloc[i]-1 


return data set 


在 国内 资本 市 场 ,目前 已 经 违约 的 信用 债 发 行 主体 的 数量 是 非常 少 的 , 占 所 
有 债券 发 行 主体 的 不 足 1%。 这 样 就 出 现 了 严重 的 样本 不 均衡 问题 , 当 我 们 直 
接 使 用 这 样 的 样本 总 体 进行 模型 开发 .统计 检验 时 ,很 多 算法 不 能 直接 给 出 结 
果 。 本 书 第 2 章 介 绍 的 解决 样本 不 均衡 问题 的 算法 又 不 能 直接 应 用 于 信用 债 发 
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行 主体 的 财务 数据 ,因为 由 第 5、 第 6 两 章 的 统计 数据 和 检验 结果 可 见 , 财务 数 
据 无 法 真实 有 效 地 反映 企业 的 真实 还 款 能 力 和 财务 水 平 。 

例如 ,很 多 已 经 违约 的 公司 ,其 现金 流 和 还 款 能 力 均 表现 “良好 ”。 如 果 直 接 
对 已 经 违约 样本 的 财务 数据 进行 “过 采样 ”, 就 会 模拟 出 很 多 财务 状况 良好 但 已 
经 违约 的 样本 。 就 笔者 实际 的 统计 检验 结果 来 看 ,这 种 做 法 更 使 得 财务 数据 对 
违约 状况 影响 不 显著 ,基本 无 法 将 任何 财务 指标 进入 模型 。 

此 处 ,我 们 的 解决 方案 是 采用 自 定 义 技 术 性 违约 样本 的 方法 来 解决 样本 严 
重 不 均衡 问题 。 笔 者 在 使 用 财务 数据 开发 评分 卡 模型 时 ,通常 采用 “现金 到 期 债 
务 比 “ 现 金 流量 利息 保障 倍数 ”和 “经营 活 动产 生 的 现金 流量 净 额 /流动 负债 "三 
个 指标 来 自 定义 技术 性 违约 。 我 们 首先 在 每 个 行业 中 均 选择 这 三 个 指标 排名 最 
后 20% 的 公司 ,然后 取 这 些 公司 的 交集 ,作为 该 行业 的 技术 性 违约 样本 。 


# 标 记 技 术 性 违约 


def mark technical default (marked set,percentage): 


#marked_set=copy.copy (data_set) 


#percentage=0.2 
rptDate_list=[' 20161231 ', ' 20151231 ', ' 20141231 ', '20131231',' 
20121231") 


for rptDate in rptDate list: 


False) 


False) 


False) 


# rptDate='20161231' 

data_set=marked_set [marked_set['rptDate'] --rptDate] 
n-len(data set) 

start num-n -int (percentage * n) 


sub set-data set.sort values ('OCFTOQUICKDEBT ', ascending- 


sub set-sub set.iloc[start num:n,] 
code 1-sub set.CODE 
sub set-data set.sort values ('OCFTOINTEREST', ascending- 


sub set-sub set.iloc[start num:n,] 
code 2-sub set.CODE 
sub set-data set.sort values ('OCFTOSHORTDEBT ', ascending- 


sub set-sub set.iloc[start num:n,] 


code 3-sub set.CODE 


# 对 这 三 个 指标 取 交 集 
codes- [] 


for i in range(len(data set)): 
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if data set.CODE.iloc[i] in list (code 1) and data set. f 
CODE.iloc[i] in list(code 2) and data set.CODE.iloc[i] in list (code 3): * 


codes.append(data set.CODE.iloc[i]) 


# 标 记 技术 性 违约 
for i in range(len(data set)): 
if data_set.CODE.iloc[i] in codes: 
marked set.loc[(marked set['rptDate'] ==rptDate) & 
(marked set['CODE'] --data set.CODE.iloc[i]),'isDefault']-1 


return marked set 


# 计算 误差 平方 和 
def rssError(yArr, yHatArr): 
return ((yArr -yHatArr) * * 2).sum() 
# 标准 化 
def regularize(xMat): #regularize by columns 


inMat=xMat.copy () e 


inMeans-np.mean(inMat, 0) #calc mean then subtract it off 


inVar-np.var(inMat, 0) #calc variance of Xi then divide by it 
inMat- (inMat -inMeans) / inVar 
return inMat 

332p [eL iie ACE b 

def stepWise(xArr, yArr, step-0.01, numIt-5000): 
# xArr=copy.copy (index) 
# yArr=copy.copy (isDefault) 
xMat=np.mat (xArr) 
xMat-regularize(xMat) 
yMat-np.mat(yArr).T 
yMean-np.mean(yMat) 
yMat- yMat - yMean 
N, n-np.shape (xMat) 
returnMat-np.zeros ((numIt, n)) 
ws-np.zeros((n, 1)) 
wsTest-ws.copy() 
weMax-ws.copy() 
for ii in range (numIt) : 

#print (ws.T) 
lowestErr=np.inf 


for jj in range(n): 
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for sign in [-1, 1]: 
wsTest-ws.copy() 
wsTest[jj] *-step * sign 
yTest-xMat * wsTest 
rssE-rssError(yMat.A, yTest.A) 
if rssE <lowestErr: 
lowestErr-rssE 
wsMax-wsTest 
ws-wsMax.copy() 
returnMat[ii, :]-ws.T 


return returnMat 


## 数 据 预 处 理 及 人 模 指标 筛选 
def index select (industry,percentage): 
#industry=" 采 矿业 " 
#Percentage=0.2 
# 从 数据 库 读 取 , 指定 行业 的 所 有 数据 
try: 
with con.cursor() as cursor: 
query-"SELECT * FROM creditrisk.all ratio data WHERE 
industry L1-'" «industry +"';" 
cursor.execute (query) 
result-cursor.fetchall() 
finally: 
con.close 
# 删除 定性 相关 指标 
ratio_data=pd.DataFrame (result) 
del_list=['CITY', 'CITYINVESTMENTBONDGEO', 'MUNICIPALBOND', 
'FOUNDDATE','HOLDER PCT','HOLDER SHARECATEGORY', 
"LISTINGORNOT', 'NATURE', 'PROVINCE', 'REGCAPITAL', 
‘SHAREHOLDERNATURE', ‘industry Ll','industry L2', 
‘industry L1 wind','industry L2 wind','industry 
L3 wind','industry L4 wind'] 
for col name in del list: 


del ratio data[col name] 


*df.head 
name list-list(ratio data) 
protect list- ['OCFTOQUICKDEBT', 'OCFTOINTEREST' , 'OCFTOSHORTDEBT''] 
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# 去 除 空 缺 值 过 多 的 指标 ,如 果 缺 失 值 大 于 1/3, 则 删除 该 指标 


n-ratio data.columns.size 


Ao 


T 
1 

' 

1 

1 

1 

1 

1 

| 

m-ratio data.iloc[:,0].size i 
adjust=0 f 
for i in range (n): | 
#i=1 1 
data list-ratio data.iloc[:,i -adjust] | 

na count-0 s 

if name_list[i] in protect_list: | 
continue ' 

for j in range (m): i 
#j=1 ' 

if data list[j] !-data list[j]: t 

na count *-1 

if (na count/m)» (1/3): ] 

1 
1 


del ratio data[name list[il] 


adjust +=1 (® 


# 去 除 空缺 值 过 多 的 样本 ,如 果 缺 失 值 大 于 1/3, 则 删除 该 样本 
n=ratio_data.columns.size 
m=ratio_data.iloc[:,0].size 
adjust=0 
for i in range(m): 
#i=1 
data_list=ratio_data.iloc[i -adjust,:] 
na_count=0 
for j in range (n): 
#j=1 
if data list[j] !=data_list[j]: 
na count +=1 
if (na count/n)» (1/3): 
ratio data-ratio data.drop(i) 


adjust *-1 


缺失 值 的 填充 方法 有 很 多 ,最 简单 的 是 用 行业 均值 .中 位 数 、 众 数 等 去 填充 。 
还 有 通过 其 他 不 含 缺失 值 的 指标 ,建立 如 线性 回归 、 随 机 森林 回归 等 的 预测 模型 
来 填充 缺失 值 的 方法 。 这 些 方法 在 其 他 书 中 较 常 见 , 此 处 就 不 一 一 介绍 了 。 

本 书 采用 的 缺失 值 填充 方法 ,是 笔者 多 年 研究 中 国 市 场 得 出 的 深刻 体会 总 
结 。 笔 者 发 现 ,中 国 市 场 同 质 化 趋势 明显 ,这 主要 表现 为 同一 类 型 的 公司 ,很 多 


E BRAK Re we pd M 


Ry 


SEH ol uod — mw EB IS 


El 


指标 尤其 是 比率 型 的 指标 趋势 变化 同 质 化 。 因 此 ,此 处 我 们 采取 的 缺失 值 填 充 
策略 是 根据 企业 的 营业 收入 ,分 为 四 分 位 数 。 即 根据 企业 的 营业 收入 ,分 为 大 型 
公司 、 中 大 型 公司 、 中 型 公司 、 小 型 公司 ,如 果 一 个 存在 缺失 值 的 样本 属于 大 型 公 
司 , 则 用 大 型 公司 中 所 有 非 缺失 值 样本 的 平均 数 来 填充 该 缺失 指标 ,以 此 类 推 。 
# 填充 缺失 值 
try: 


with con.cursor() as cursor: 
query="SELECT COMP NAME, TOT OPER REV AS oper rev, rptDate 
FROM creditrisk.all ratio data;" 
cursor.execute (query) 
result-cursor.fetchall() 
finally: 
con.close 
# 读 取 企业 营业 收入 
oper rev-pd.DataFrame (result) 
oper rev-oper rev.drop duplicates() 
comp list-pd.DataFrame() 
comp list['CODE']-ratio data.CODE 
comp list['COMP NAME']-ratio data.COMP NAME 
comp list-comp list.drop duplicates() 
oper rev list-pd.merge (comp list,oper rev,how-'left',on- 'COMP. 
NAME ') 
rptDate_list=['20161231', '20151231", '20141231"', '20131231', '20121231'] 


complete set-pd.DataFrame() 


count_nas=[0 for i in range(0,ratio_data.columns.size) ] 


for rptdate in rptDate_list: 

# rptdate='20161231' 

data _set = oper_rev_ list [oper rev list['rptDate'] == str 
(rptdate)] 

data_set=data_set.fillna(-1) 

data_set=data_set[data_set['oper_rev'] !=(-1)] 

# 用 分 位 数 ,按照 公司 的 营业 收入 将 公司 分 为 大 型 .中 大 型 .中 型 和 小 型 公司 

boundarys- [data set['oper rev'].quantile(0),data set['oper rev']. 
quantile(0.25), data set['oper rev'].quantile(0.5),data set['oper 
rev'].quantile(0.75), data set['oper rev'].quantile(1)] 

# 获 取 不 同类 型 公司 的 边界 

part 1 list-data set[data set['oper rev'] <=boundarys[1]] 

del part 1 list['oper rev'] 


part 2 list-data set[data set['oper rev']»boundarys[11] 


主体 评级 税 型 开发 方法 


part 2 list-part 2 list[part 2 list['oper rev'] <=boundarys [2]] 
del part 2 list['oper rev'] 
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part 3 list-data set[data set['oper rev']>boundarys [2]] 
part 3 list-part 3 list[part 3 list['oper rev'] «-boundarys[31] 
del part 3 list['oper rev'] 


part 4 list-data set[data set['oper rev']»boundarys[3 


del part 4 list['oper rev'] 
合并 整理 不 同类 型 公司 的 数据 集 
part_l=pd.merge(part_1 list,ratio data,how-'inner', 
left on-['CODE','rptDate','COMP NAME'], 
right on-['CODE','rptdate','COMP NAME']) 
del part l['rptdate'] 


part 2-pd.merge(part 2 list,ratio data,how-'inner', 
left on-['CODE','rptDate','COMP NAME'], 
right on- 'CODE','rptdate','COMP NAME']) 
del part 2['rptdate'] 
part 3-pd.merge(part 3 list,ratio data,how-'inner', 
left on-['CODE','rptDate','COMP NAME'], 
right on-['CODE','rptdate','COMP NAME']) e 
del part 3['rptdate'] 


part 4-pd.merge(part 4 list,ratio data,how-'inner', 
left on-['CODE','rptDate','COMP NAME'], 
right on-['CODE','rptdate','COMP NAME']) 
del part 4['rptdate'] 


name list part-list(part 1) 


n-part l.columns.size 


part 1 means-part 1.iloc[:,3:n] .describe () .mean()# 计 算 大 型 公司 该 
指标 的 平均 数 
part 2 means-part 2.iloc[:,3:n] .describe () .mean()# 计 算 中 大 型 公司 
该 指标 的 平均 数 
part 3 means=part 3.iloc[:,3:n] .describe () .mean()# 计 算 中 型 公司 该 
指标 的 平均 数 
part 4 means=part_4.iloc[:,3:n].describe() .mean () # 计 算 小 型 公司 该 
指标 的 平均 数 
# 填 充 大 型 公司 的 缺失 值 
for i in range (3,n): 
#i=4 
data_list=part_l.iloc[:,i] 
na_count=0 


for j in range(len(part_1)): 
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#j=1 
if data_list[j] !=data_list[j]: 
na_count +=1 
part l.iloc[j,i]-part 1 means[i-3] 
count nas[i] *-na count 
# 填 充 中 大 型 公司 的 缺失 值 
for i in range (3,n): 
#i=4 
data_list=part_2.iloc[:,i] 
na_count=0 
for j in range(len(part_2)): 
#j=1 
if data_list[j] !=data_list[j]: 
na_count +=1 
part 2.iloc[j,i]-part 2 means [i-3] 
count nas[i] *-na count 
# 填 充 中 型 公司 的 缺失 值 
for i in range(3,n): 
#i=4 
data_list=part_3.iloc[:,i] 
na_count=0 
for j in range(len(part 3)): 
#j=1 
if data_list[j] !=data_list[j]: 
na_count +=1 
part 3.iloc[j,i]-part 3 means[i-3] 
count nas[i] *-na count 
# 填充 小 型 公司 的 缺失 值 
for i in range(3,n): 
#i=4 
data_list=part_4.iloc[:,i] 
na_count=0 
for j in range(0,len(part_4)): 
#j=1 
if data list[j] !=data_list[j]: 
na count +=1 
part 4.iloc[j,i]-part 4 means[i-3] 


count nas[i] *-na count 


data set-part l.append(part 2).append(part 3).append(part 4) 


complete set-complete set.append(data set) 


主体 评级 税 型 开发 方法 


j 
count nas-pd.Series(count nas, index-list(complete set)) f | 
+: 
Heh peice t + f 
complete_set=mark_technical_default (mark_default (complete_set), i 
percentage) | 
i 
#complete_set [complete_set ['isDefault']==1] i 
ratio type list- [['ROE AVG','ROE BASIC','ROE DILUTED','ROE _ | 
DEDUCTED', 'ROE_EXBASIC', 'ROE_EXDILUTED', 'ROE_ADD', 'ROA2', 'ROA', 1 
'ROIC','ROE YEARLY','ROA2 YEARLY','ROA YEARLY',' 'NETPROFITMARGIN', 4 
'GROSSPROFITMARGIN', ' | COGSTOSALES "r > NPTOCOSTEXPENSE 59, 
'EXPENSETOSALES', ' OPTOEBT ', ' PROFITTOGR ', ' OPTOGR ', ' EBITTOGR ', i 
'GCTOGR' , ' OPERATEEXPENSETOGR ', ' ADMINEXPENSETOGR ', ' FINAEXPENSETOGR ', i 
'IMPAIRTOGR' , 'IMPAIRTOOP', 'EBITDATOSALES '], | 
[' OPERATEINCOMETOEBT ', ' INVESTINCOMETOEBT ', ' NONOPERATEPROFITTOEBT ', 1 
'TAXTOEBT', 'DEDUCTEDPROFITTOPROFIT'], i 
[' SALESCASHINTOOR ', ' OCFTOOR ', ' OCFTOOPERATEINCOME ', ' 
'CAPITALIZEDTODA', ' OCFTOCF ', ' ICFTOCF ', ' FCFTOCF ', ' OCFTOSALES ', i 
'OCFTOINVESTSTOCKDIVIDEND', 'OCFTOOP', 'OCFTOASSETS', 'OCFTODIVIDEND'], (3 
[' DEBTTOASSETS ', ' DEDUCTEDDEBTTOASSETS ', ' LONGDEBTTOLONGCAPTIAL ', 
'LONGCAPITALTOINVESTMENT', ' ASSETSTOEQUITY ', ' CATOASSETS ', 
'CURRENTDEBTTOEQUITY', ' NCATOASSETS ', ' LONGDEBTTOEQUITY ', 


'TANGIBLEASSETTSTOASSETS', 'EQUITYTOTOTALCAPITAL ', 'INTDEBTTOTALCAP ', 
'CURRENTDEBTTODEBT ', 'LONGDEBTTODEBT', 'NCATOEQUITY'], 


[' CURRENT ', ' QUICK ', ' CASHRATIO ', ' CASHTOCURRENTDEBT ', 
'OCFTOQUICKDEBT', 'OCFTOINTEREST ', ' DEBTTOEQUITY ', ' EQUITYTODEBT ', 
'EQUITYTOINTERESTDEBT', ' TANGIBLEASSETTODEBT ', ' TANGASSETTOINTDEBT ', 
'TANGIBLEASSETTONETDEBT', ' DEBTTOTANGIBLEEQUITY ', ' EBITDATODEBT ', 
'OCFTODEBT','OCFTOINTERESTDEBT', 'OCFTOSHORTDEBT ', ' OCFTOLONGDEBT ' , 
' OCFTONETDEBT ', ' OCFICFTOCURRENTDEBT ', ' OCFICFTODEBT ', 
'EBITTOINTEREST', ' LONGDEBTTOWORKINGCAPITAL ', ' LONGDEBTTODEBT ', 
'NETDEBTTOEV', ' INTERESTDEBTTOEV ', ' EBITDATOINTERESTDEBT ', 


'EBITDATOINTEREST', 'TLTOEBITDA', 'CASHTOSTDEBT'], 

['TURNDAYS', ' INVTURNDAYS ' , 'ARTURNDAYS', 'APTURNDAYS', ' NETTURNDAYS ', 
'INVTURN','ARTURN', 'CATURN', 'OPERATECAPTIALTURN', 'FATURN', 'NON 
CURRENTASSETSTURN', 'ASSETSTURN1', 'APTURN'], 

['TOT ASSETS','TOT LIAB','TOT EQUITY','TOT OPER REV','OPPROFIT', 
'NET PROFIT IS','NET CASH FLOWS OPER ACT','NET CASH FLOWS INV ACT', 
'NET CASH FLOWS FNC ACT']] 


final name list- ['CODE','rptDate', 'COMP NAME'] 


selected name list-[] 
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isDefault-complete set.isDefault 
# 指 标 筛选 和 预 处理 
for x in range(7): 
#x=0 
col_list=[] 
for j in ratio_type list[x]: 
if j in list (complete set): 


col list.append(j) 


index-complete set.loc[:,col list] 
r mat-np.corrcoef (index, rowvar=0) 
index names-list (index) 


drop list-[] 


+A ACS BR THE HE Be (0. 8) 的 指标 
for i in range(0,len(r_mat)): 
if index names[i] in drop list: 
continue 
else: 
for j in range(0,len(r mat)): 
if index names[j] in drop list: 
continue 
else: 
if i !-j and abs(r mat[i,j]) >=0.8 and count nas 
[index names[j]] >=count_nas[index_names[i]]: 
drop list.append(index names[j]l) 
else: 


continue 


if len(drop_list)>0: 
fori in range(len(drop list)): 
del index[drop list[i]] 


if len(list(index)) ==1: 


selected name list.append(list (index) [0]) 


continue 


# 指 标 筛选 ,方法 一 : 随机 森林 

#No.1 : Random forest 

clf=RandomForestClassifier (oob_score=True, random_state=10, 
class_weight=None) 

clf.fit (index, isDefault) 


主体 评级 税 型 开发 方法 


#list (index) 

#list (clf.feature_importances_) 

rf importance-pd.DataFrame (('name' : list (index), 'importance' : 
list(abs(clf.feature importances ))]) 

rf importance-rf importance.sort values('importance',ascending 
-False) 

selected name list.append(rf importance.iloc[0,1]) 

# 指 标 筛选 ,方法 二 : 逐步 回归 

#No.2 : Front stepwise Regression, 前 向 逐步 回归 算法 ,筛选 入 模 指 标 

wMat-stepWise(index,isDefault) 

sw importance-pd.DataFrame (('name' : list (index), 'importance' : 
list (abs (wMat [4999])) ]) 

sw importance-sw importance.sort values('importance',ascending 
-False) 


selected name list.append(sw importance.iloc[0,1]) 


selected name list-list(set(selected name list)) 
selected name list 2-[] 
for i in range(7): 
for j in range(len(selected name list)): 
if selected name list[j] in ratio type list[i]: 


selected name list 2.append(selected name list[j]) 


# 二 次 去 共 线 性 

preselected set-complete set.loc[:,selected name list 2] 
r_mat=np.corrcoef (preselected_set, rowvar=0) 

index_names= list (preselected_set) 


drop_list=[] 


for i in range(0,len(r mat)): 
if index names[i] in drop list: 
continue 
else: 
for j in range(0,len(r mat)): 
if index names[j] in drop list: 
continue 


else: 


ifi !-jandabs(r mat[i,j]) >=0.8 and count nas[index 


names[j]] »-count nas[index names[i]]: 
drop list.append(index names[jl) 
else: 


continue 
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if len(drop_list)>0: 
fori in range (len(drop list)): 


del preselected set[drop list[i]] 


selected name list-list(preselected set) 


for iin range(len(selected name list)): 


final name list.append (selected name list[i]) 


final name list.append('isDefault') 


selected set-complete set.loc[:,final name list] 


return selected set 


# 返 回 选中 的 人 模 指标 
def list_select (input_set,column_name,select_list): 
output_set=pd.DataFrame (columns-list (input set)) 
for i in range(len(input set)): 
if input set[column name].iloc[i] in select list: 
output set-output set.append(input set.iloc [33:54 


return output set 


# 计算 各 入 模 指 标的 同行 业 ,趋势 ,波动 率 评分 表 

def calculate factors (selected set,year end): 
#year_end=2016 
year_mid=year_end-1 
year start-year end -2 
rptDate start-str(year start) +'1231' 
rptDate mid-str(year mid) +'1231' 
rptDate end-str(year end) *'1231' 


data set start-selected set[selected set['rptDate'] --rptDate 
start] 

data set mid- selected set[selected set['rptDate'] --rptDate 
mid] 

data set end-selected set[selected set['rptDate'] --rptDate 
end] 


code 1-list(data set start.CODE) 
code 2-list(data set mid.CODE) 
code 3-list(data set end.CODE) 


主体 评级 税 型 开发 方法 


# 取 交集 


codes=[] 
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for i in range (len(selected set.CODE)): 
if list (selected_set.CODE) [i] in code 1 and list (selected 
set.CODE) [i] in code 2 and list (selected_set.CODE) [i] in code 3: 
codes .append (list (selected_set.CODE) [i]) 
IRE 


codes=list (set (codes) ) 


# 截 选 
data set start-list select(data set start,'CODE',codes) 
data set mid-list select(data set mid, 'CODE',codes) 


data set end-list select(data set end,'CODE',codes) 


# 排序 
data set start-data set start.sort values ('CODE', ascending= 
True) 
data set mid-data set mid.sort values ('CODE',ascending=True) e 


data set end-data set end.sort values ('CODE',ascending=True) 


output set-data set end.loc[:,['CODE', 'COMP NAME']] 


isDe fault-data set end['isDefault'] 


del list-['CODE','rptDate','COMP NAME','isDefault'] 
for col name in del list: 

deldata set start[col name] 

del data set mid[col name] 


del data set end[col name] 


# 结 束 年 
col list-list(data set end) 
for col name in col list: 


output set[col name]-data set end[col name] 


# 计 算 趋势 (Trend) 
for col name in col list: 
trend name-col name *' T' 


temp-[] 


for i in range(len(data set end)): 


temp.append(100 * (data set end[col name].iloc[i] -data- 
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set start[col name].iloc[i]) /abs (data set start[col name].iloc[il)) 


output set[trend name]-temp 


# 计算 波动 性 (Volitility) 
for col_name in col list: 
volitility name-col name +' V' 


temp-[] 


fori in range(len(data set end)): 
Sdv-np.std([data set start[col name].iloc[i],data set 
mid[col name].iloc[i],data set end[col name].iloc[i]]) 
absMean-abs (np.mean([data set start[col name]. XMocTÀ ly 


data set mid[col name].iloc[i],data set end[col name].iloc[i]]l)) 


if absMean --0: 
absMean-0.0001 


temp.append (Sdv/absMean) 


output set[volitility name]-temp 


output set['isDefault']-isDefault 


return output set 


# 取 分 位 数 
def quantile(data list,seq num-4): 
quantile list-[] 
for i in range(seq num*1): 
percentage- (i/seq num) * 100 
quantile list.append(np.percentile(data list,percentage)) 


return quantile list 


# 把 数据 写 人 Excel 文件 
def write_dataframe_to_excel (sheet, df, start_col=1,start_row=1, 
index=False,columns=True): 
# sheet=ws1 
column fist-e['','A*, "B*', ^C*, *D*, By PEU a FEN, SI RY 
ket OMT NN AO SPU FOX UT, OS ipio E AEE NG eG 
writing row-0 


forr indataframe to rows (df, index-index, header-columns): 


主体 评级 税 型 开发 方法 
T 


for j in range (len (r)): T 
cell index-column list[j *start col] *str(start row + * 
writing row) 
sheet [cell index].value-r[j] 


writing row +=1 


# 读 取 csv 文件 
def read_csv(input_dir): 
csvFile=open(input_dir, "r") 
reader-csv.reader(csvFile) # 返 回 的 是 迭代 类 型 
data=[] 
for item in reader: 
#print (item) 
data.append (item) 


csvFile.close() 


return data 
# 计算 几何 平均 i5 
def geometric mean(input list): 
n-len(input list) 
a-1 
for i in range(n): 
a-a* float (input_list[i]) 


return pow(a,1/n) 


# 列 表 乘 法 
def multiply list(input list,y): 
def f (x): 
return x * y 


return list (map (f,input_list)) 


# 列 表 除 法 
def devide list(input list,y): 
def f (x): 
returnx / y 


return list (map (f,input_list)) 


HEH AHP 法 计算 模型 定性 部 分 指标 的 权重 
def get qualitative weigth(industry): 
EREE Hbnz---IEWEZ , RE ESTEE. 
input dir-" D:/Temp/ 风 控 模 型 /AHP-" + industry +"- 重 要 性 判断 矩阵 
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1.csv" 

input set-read csv(input_dir)# 读 取 目 标 层 --- 准 则 层 相对 重要 性 矩阵 

#input_set=pd.DataFrame (input_set, columns=["A1","A2"], index= 
[^81 *, n22"1) 

gi al-geometric mean(input set[0]) 

gi a2-geometric mean(input set[1]) 

total gi al a2-gi al +gi a2 

wi al-gi al/ total gi al a2 

wi a2-gi a2 / total gi al a2 


open WIE AL---48 tale P, AEREA 

input dir-" D:/Temp/ 风 控 模 型 /AHP-" +industry +"- 重 要 性 判断 矩阵 
2.054” 

input set-read csv(input dir) # 读 取 准 则 层 --- 指 标 层 相 对 重要 性 矩阵 

alp_pl=geometric_mean(input_set[0]) 

alp_p2=geometric_mean(input_set[1]) 

total gi alp-alp pl +alp p2 

wi alp pl-alp pl / total gi alp 

wi alp p2-alp p2 / total gi alp 


##### 淮 则 层 A2- -指标 层 P, 权 重 的 确定 ##### 

input dir-" D:/Temp/ 风 控 模型 /AHP-" +industry +"- 重 要 性 判断 矩阵 
3.csv" 

input set-read csv(input dir) # 读 取 准 则 层 --- 指 标 层 相对 重要 性 矩阵 

a2p_p3=geometric_mean(input_set[0]) 

a2p p4-geometric mean(input set[1]) 

a2p p5-geometric mean(input set[2]) 

a2p p6-geometric mean(input set[3]) 

a2p p7-geometric mean(input set[4]) 

a2p p8-geometric mean(input set[5]) 

a2p p9-geometric mean(input set[6]) 

a2p plO0-geometric mean(input set[7]) 

a2p plli-geometric mean(input set[8]) 

total gi a2p-a2p p3-*a2p p4*a2p p5*a2p p6ta2p p7*ta2p p8*a2p 
p9*a2p pl0*a2p pll 

wi a2p p3-a2p p3 / total gi a2p 

wi a2p p4-a2p p4 / total gi a2p 

wi a2p p5-a2p p5 / total gi a2p 

wi a2p p6-a2p p6 / total gi a2p 


wi a2p p7-a2p p7 / total « 
wi a2p p8-a2p p8 / total gi a2p 
wi a2p p9-a2p p9 / total gi a2p 
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test data-test data.T 

test data.columns- ["2014 年 财务 数据 ","2015 年 财务 数据 ","2016 年 财务 
数据 "] 

factor title-pd.DataFrame (('type':type list,'factor names': 


factor names],columns- ['type','factor names']) 
row to write-1 


wb-openpyxl.Workbook() 
wsl-wb.active 


wsl.title- "定量 评分 


write dataframe to excel(wsl,factor title,start col-1,start 
row-2,index-False,columns-False) 

write dataframe to excel(wsl,test data,start col-3,start row- 
l,index-False,columns-True) 


row to write *-len(factor title) +2 


# 得 分 模块 # 
wsl["A$ d" $ row_to_write] .value=' 得 分 ' 


row to write +=2 


# 同 行业 
wsl["A$ d" $ row to write].value- ' 同 行业 ' 
wsl["F$ d" $ row to write] .value=' 得 分 ' 


row_to_write +=1 


write dataframe to excel(wsl,factor title, start_col=1,start_ 
row-row to write,index-False,columns-False) 
fori in range(len(factor title)): 
rw-row to write +i 
formula="=IF( 同 行业 !$ c"+str (i+3)+"< 同 行业 !$ L"+str(i+3)+", 
IF(E"+str (i+3)+"< 同 行业 !$ C"+ str (i+3)+",0,IF(E"+str (i+3)+"> 同 行 
业 !$ L"+str(i+3)+",100, OFFSET (同行 业 !$ BS 2,0, MATCH (E"+str (i+3)+", 
同行 业 !$ C"+str (i+3)+":$ L"*str(i*3)*"))))"*", IF (E"* str (i+2)+"> 同 
行业 !$ C"+str(i+3)+", 0,IF(E"+str (i+2)+"< 同 行业 !$ L"+str (i+3)+", 
100,0FFSET (同行 业 !$ BS 2,0,MATCH (E"+str (i+2)+", 同 行业 !$ C"+str(i+3) 
+":$ L"+str (i+3)+",—1)))) "+")" 


wsl["F$ d"$ rw].value-formula 


row stamp l-row to write 


row to write +=len(factor_ title) +1 


主体 评级 税 型 开发 方法 


# 趋 势 

ws1["A% d" $ row to write].value- ' 趋 势 ' 
ws1["C% d" $ row to write] .value=' 绝 对 增长 率 ' 
wsl["F$ d" $ row to write] .value=' 得 分 ' 


row to write +=1 


write dataframe to excel(wsl,factor title,start col=1,start_ 


row-row to write,index-False,columns-False) 
fori in range(len(factor title)): 
rw-row to write +i 
formula="=100* (E"+str (i+2)+"-C"+str (i+2)+")/ABS (C"+str(i 
*2)*")" 
wsl["C$ d"$ rw].value-formula 
for i in range(len(factor title)): 
rw-row to write +i 
formula="=IF (趋势 !$ Cc"+str (i+3)+"< 趋 势 !$ L"+str (i+3) 4+", IF 
(C"+str (rw)+"< 趋 势 !$ C"+str (i+3)+",0,IF(C"+str (rw)+"> 趋 势 !$ L"+ 
str(i*3)*",100,OFFSET (趋势 1$ BS 2,0,MATCH(C"+str (rw)+", 趋势!$ C"+ 
str(i*3)*":$ L"+str (i+3)+"))))"+",IF(C"+str (rw)+"> 趋 势 1$ C"+str (i 
+3)+",0,IF(C"+str (rw)+"< 趋 势 1$ L"+str (i+3)+", 100, OFFSET (趋势 !$ B 
$ 2,0,MATCH(C"+str(rw) +", 趋势 1$ C"+str (i+3)+":$ L"+str(i+3)+",- 
LIES ai Ga 


wsl["F$ d" $ rw].value-formula 


row_stamp_2=row_to_write 


row to write +=len(factor title) +1 


# 波动 率 

wsl["A$ d" $ row to write].value- ' 波 动 率 ' 

wsl["C$ d" $ row to write].value- "均值 的 绝对 值 ' 

wsl["D$ d" $ row to write].value- ' 标 准 差 ' 

wsl["E$ d" row to write].value- ' 标 准 差 / (均值 的 绝对 值 )' 
wsl["F$ d" $ row to_write] .value= ' 得 分 ' 


row to write +=1 


% 
LI 


write dataframe to excel(wsl,factor title,start col-1,start 


row-row to write,index-False,columns-False) 
fori in range(len(factor title)): 
rw-row to write +i 
formula="=IF (ABS (AVERAGE (C"+str(i+2)+":E"+str (i+2)+"))=0, 
0.0001, ABS (AVERAGE (C"* str (it2)*":E"*str(i*2)*")))" 
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wsl["C$ d" $ rw].value-formula 
fori in range(len(factor title)): 


rw-row to write +i 


formula-"-STDEV(C"*str(i*2)*":E"*str(i*2)*" 
wsl["D$ d"$ rw].value-formula 
fori in range(len(factor title)): 


rw-row to write +i 


formula-"-D"-«str(rw)*"/C"-*str (rw) 
wsl["E$ d" $ rw].value-formula 

fori in range(len(factor title)): 
rw-row to write +i 


formula IF (波动 率 !$ C"+str (i+3)+"< 波 动 率 !$ L'4str(i*3)*", 


IF(E"+str (rw)+"< 波 动 率 !$ C"+str (i+3)+",0,IF(E"+str(rw)+"> 波 动 率 ! 
$ L"+str(i+3)+",100, OFFSET (波动 率 !$ BS 2,0,MATCH(E"+str (rw) +", KA 
FAIS Cn"+str(i+3)+":S L"+str (it+3)+")))) "+", IF (E"* str (rw)+"> 波 动 率 ! 
$ C"+str (i+ 3)+",0,IF(E"+str (rw)+"< 波 动 率 !$ L"+ str (i+ 3) +", 100, 
OFFSET (波动 率 !$ BS 2,0,MATCH(E"+str (rw)+", 波 动 率 !$ C"+str (it 3) +": 
$ L"+str(i+3)+",-1))))"+")" 


wsl["F$ d" $ rw].value-formula 


row_stamp_3=row_to_write 


row to write *-len(factor title) +1 


## 指 标 数据 得 分 表 

n=int (len (boundarys)/3) 

coefficient list=importance.coefficients 
order list=[] 

f names-list(factors set) 


f names-f names[2: (2* len(factor title))] 


fori in range(len(f names)): 
for j in range (len (dictionary .排序 ) jt 
if f names[i] --dictionary.iloc[j,2]: 


order list.append (dictionary.iloc[j,3]) 


order list- order list *order list +['0' for i in range (len (f_ 


names))] 


for i in range (len (boundarys)): 


if (coefficient list[i] «-0 and order list[i] --'0') or order 


_list[i] --'-1': 


主体 评级 税 型 开发 方法 


boundary temp=[] 
for j in range (9,-1,-1): 
boundary temp.append (boundarys.iloc[i,j]) 


boundarys.iloc[i,:]-boundary temp 


# 同行 业 # 
ws2-wb.create sheet (' 同 行业 ') 


sub boundary set=boundarys.iloc[:n,:] 


write dataframe to excel(ws2,factor title,start col-1,start 


row-3,index-False,columns-False) 
write dataframe to excel(ws2,sub boundary set,start col-3, 


start row-2,index-False,columns- True) 


# 趋 势 # 
ws3=wb.create_sheet (' 趋 势 ') 


sub boundary set-boundarys. iloc[n: (2* n),:] 


write dataframe to excel(ws3,factor title,start col-1,start 


row-3,index-False,columns-False) 
write dataframe to excel(ws3,sub boundary set,start col-3, 


start row-2, index-False,columns-True) 


# 波动 率 # 
ws4-wb.create sheet (' 波 动 率 ') 


sub boundary set-boundarys.iloc[(2*n):,:] 


write dataframe to excel(ws4,factor title,start col-1,start 


row-3,index-False,columns-False) 
write dataframe to excel(ws4,sub boundary set,start col-3, 


start row-2,index-False,columns-True) 


## 定 量 得 分 
ws5=wb.create_sheet (' 定量 得 分 ') 
ws5["A2"].value- ' 同 行业 ' 


write dataframe to excel(ws5,factor title,start col-2,start 


row-2,index-False,columns-False) 
ws5["A$ d" $ (n*2)].value- ' 趋 势 ' 


write dataframe to excel(ws5,factor title,start col-2,start 


row-n-*2,index-False,columns-False) 


ws5["A$ d"$ (2*n*2)].value- UE X 


write dataframe to excel(ws5,factor title,start col-2,start 


row=2 * n+2, index=False,columns=False) 
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ws5["D1"] .value=' 权 重 ' 


for i in range (len (importance)): 


ws5["D$ d"$ (i+2)].value=importance.importance[i] 


ws5["E1"] .value=' 得 分 ' 

for i in range(n): 
rw-row stamp 1 +i 
formula="= 定 量 评分 !F"+str (rw) 


ws5["E% d" % (i+2)].value=formula 


rw-row stamp 2 +i 
formula="= iF 4} !F"+str (rw) 


ws5["E$ d" $ (n+i+2)].value=formula 


rw-row stamp 2 +i 


定量 评分 !F"+str (rw) 


formula= 


ws5["E$ d" $ (2*n*i*2)].value-formula 


ws5["F1"].value- ' 加 权 得 分 ' 
for i in range(n* 3): 
rw=i+2 
formula="=D"+str (rw) +" * E"+str (rw) 


ws5["F$ d"$ rw].value-formula 


ws5["C$ d" $ (3x*n+2)].value=' 加 权 得 分 ， 
formula="=SUM(F2:F"+str(n* 3+1)+")" 
ws5["F$ d"% (3*n-*2)].value-formula 


## 定 性 分 析 

ws6=wb.create_sheet (' 定 性 分 析 ') 
ws6["El"] .value=' 加 权 得 分 ' 
ws6["B2"].value- ' 准 则 层 ' 
ws6["C2"].value- ' 指 标 层 ' 


ws6["C3"].value- ' 评 估 指 标 " 
ws6["D3"] .value=' 符 号 ' 
ws6["E3"] .value= ' 选 项 说 明 ' 
ws6["F3"].value- ' 选 项 ' 
ws6["G3"].value- ' 指 标 得 分 ' 
ws6["H3"] .value=' 指 标 最 终 权重 ' 
ws6["I3"] .value=' 最 终 加 权 得 分 ' 


ws6 


ws6 


ws6 


ws6 
ws6 
ws6 
SH 
ws6 


ws6 


["J3" 


["A4" 
["B4" 


["C4" 
["D4" 
"EA" 


["E5" 
"EG" 


有 小 幅 波动 ' 


ws6 


"ET" 


较 大 幅 波动 ' 


ws6 


"ES" 


剧烈 波动 ' 


ws6 
ws6 
FALSE) ) 
ws6 


ws6 


ws6 
ws6 


ws6 


["F4" 
["G4" 
["H4" 
["I4" 


["con 
["D9" 
["E9" 


宝 体 评 级 税 型 开发 方法 
T 


.value- ' 说 明 ' 


.value=' 机 构 定 性 评分 F' 
.value= ' 产 业 属 性 A1' 


.value= ' 经 济 政策 影响 ' 


-value-"'P1' 


.value= 'R. 良 好 的 宏观 经 济 环境 , 国家 有 政策 支持 ,行业 发 展 可 持续 


.value='B. 稳 定 的 宏观 经 济 环境 ,国家 有 政策 支持 ,行业 发 展 稳定 ' 
.value='C. 比 较 稳定 的 宏观 经 济 环境 ,基本 不 受 政策 影响 ,行业 发 展 


.value- 'D. 较 为 波动 的 宏观 经 济 环境 , 受 政策 影响 较 大 ,行业 发 展 有 


.value- 'E. 较 大 波动 的 宏观 经 济 环境 , 受 政策 影响 很 大 ,行业 发 展 有 


-value- 'B' 


.value-'-IF(F4-"","",VLOOKUP (F4, 数据 !$ AS 2:5 BS 6,2, 


.values-'- Jd 1c22' 


-value- '-G4* H4' 


.value- ' 经 济 周期 性 ' 
.value-'P2' 


.value='R. 受 经 济 周期 的 影响 很 小 ' 


ws6["E10"] .value='B. 受 经 济 周期 的 影响 较 小 ' 
ws6["E11"] .value='C. 受 经 济 周期 的 影响 一 般 ' 
ws6["E12"] .value='D. 受 经 济 周期 的 影响 较 大 ' 
ws6["E13"] .value='E. 受 经 济 周期 的 影响 很 大 ' 


ws6["F9"]. 
ws6["G9"]. 


FALSE)) 


ws6["H9"]. 
ws6["I9"]. 


value='B' 


value= '=IF (F4="","", VLOOKUP (F4, 数 据 !$ AS 2:$ BS 6,2, 


value='= ii !c22' 
value='=G4* H4' 


ws6["B14"].value- ' 产 业 属 性 A1" 


ws6["C14"].value- ' 公 司 性 质 ' 
ws6["D14"].value='P3' 
ws6["E14"] .value='A. PRE A 4e M " 
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ws6["E15" 
ws6["E16" 
ws6["E17" 
ws6["E18" 


ws6["F14" 
ws6["G14" 
2,FALSE))' 
ws6["H14" 
ws6["I14" 


ws6["C19" 
ws6["D19" 
ws6["E19" 
ws6["E20" 
ws6["E21" 
ws6["E22" 
ws6["E23" 


ws6["F19" 
ws6["G19" 
2,FALSE))' 
ws6["H19" 
ws6["I19" 


ws6["C24" 
ws6["D24" 
ws6["E24" 
ws6["E25" 
ws6["E26" 
ws6["E27" 
ws6["E28" 


ws6["F24" 
ws6["G24" 
2,FALSE))' 
ws6["H24" 
ws6["I24" 


ws6["C29" 
ws6["D29" 
ws6["E29" 


.value='B. 地 方 国 有 企业 或 公众 企业 ' 
.value='C. 中 外 合资 企业 或 外 商 独资 企业 ' 
.value='D. 民 营 企 业 ' 

.value='E .其 他 企业 ' 


'B' 
-IF(Fl4- 


-value- 


.value- "",VLOOKUP (F14, 数据!$ AS 2:$ BS 6, 
«value= '= BUR 1c33" 
.value-'-G14*H14' 


.value- ' 已 使 用 授信 额度 占 比 ' 
-value-'P4' 
-value='A.<=40% ' 
-value='B.>40% 及 <=55% ' 
.value-'C.»55$ R<=70% ' 
-value='D.>70% &<=90% ' 
.value-'E.»90$ 或 无 授信 ' 


‘Bp! 
-IF(Fl9-"","",VLOOKUP (F19, 数据!$ AS 2:$ BS 6, 


«value= 


«value= 


«value= '= 数 据 !C34， 
-value='=G19* H19' 


.value= ' 对 外 担保 余额 占 净 资产 的 比例 ' 
.value-'P5' 

.value-'A.«-10$ ' 
-value='B.>10% X«-20$ ' 
.value-'C.»20$ X«-30$ ' 
-value='D.>30% X«-40$ ' 
.value='E.>40% 或 无 授信 ' 


.value-'B' 
.value-'-IF(F24-"","",VLOOKUP (F24, 数 据 !$ AS 2:9 BS 6, 


.Value='= 数 据 !C35' 
-value-'-G24 * H24' 


.value=' 核 心 管理 层 变动 ' 
-value-'P6' 


.value='A. 近 3 年 没有 发 生 法 人 变更 ' 


主体 评级 税 型 开发 方法 
T 


1 K3; 2; 


K3,2; 


ws6["E30"] .value='B. 近 3 年 有 发 生 法 人 变更 ' 

ws6["F29"].value-'B' 

ws6["G29"].value- ' = IF (F29-"","", VLOOKUP (F29, 数据 ! D2: E3, 2, 
FALSE))' 

ws6["H29"] .value='= 数 据 !C36' 

ws6["I29"] .value='=G29* H29' 

ws6["C31"] .value=' 近 1 年 来 被 执行 和 失信 被 执行 次 数 ， 

ws6["D31"].value='P7' 

ws6["E31"].value='A.0K' 

ws6["E32"].value='B.1K' 

ws6["E33"] .value='C.1 次 以 上 ' 

ws6["F31"].value='B' 

ws6["G31"]. value= ' = IF (F31="","", VLOOKUP (F31, 数据 ! G2: H4, 2, 
FALSE) )' 

ws6["H31"] .value= '= Hi !C37' 

ws6["I31"] .value='=G31 * H31' 

ws6["C34"] .value=' 近 1 年 来 是 否 存在 被 银行 冻结 存款 或 起 诉 欠 款 ， 

ws6["D34"].value-'P8' 

ws6["E34"].value='A.7F' 

ws6["E35"] .value='B. 是 ' 

ws6["F34"].value-'B' 

ws6["G34"].value- ' = IF (F34="","", VLOOKUP (F34, 数据 ! J2 
FALSE) )' 

ws6["H34"] .value='= 数 据 !c38' 

ws6["I34"] .value='=G34 * H34' 

ws6["C36"] .value= ' 近 1 年 来 是 否 存在 被 股东 起 诉 ' 

ws6["D36"].value-'P9' 

ws6["E36"].value='A.7' 

ws6["E37"] .value='B. 是 ' 

ws6["F36"].value='B' 

ws6["G36"]. value= '- IF (F36="","", VLOOKUP (F36, 数据 ! J2: 
FALSE) )' 

ws6["H36"].value-'- ifi !c39' 

ws6["I36"].value-'-G36 * H36' 
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ws6["C38"].value- ' 近 1 年 来 是 否 存在 被 小 贷 (民间 借贷 ) 公 司 起 诉 ' 
ws6["D38"].value='P10' 

ws6["E38"].value-'A.$8' 

ws6["E39"] .value='B. 是 ' 


ws6["F38"].value-'B' 
ws6["G38"].value- 
FALSE) )' 
ws6["H38"].value-'- tif !C40' 
ws6["I38"].value-'-G38 * H38' 


--IF(F38 ,"", VLOOKUP (F38, $t 1$ 1 32: &3, 2, 


ws6["C40"].value- ' 招 聘 信息 
ws6["D40"].value='P11"' 

ws6["E40"] .value='A. 近 3 年 招聘 职位 数 >25' 
ws6["E41"] .value='B.5< 近 3 年 招聘 职位 数 <=25' 
ws6["E42"] .value='C.0< 近 3 年 招聘 职位 数 <=5' 
ws6["E43"] .value='D. 近 3 年 招聘 职位 数 =0' 


ws6["F40"].value-'B' 

ws6["G40"]. value= '- IF (F40="","", VLOOKUP (F40, 数据 ! M2: N5, 2, 
FALSE))' 

ws6["H40"].value- '- dfi !C41' 

ws6["I40"].value-'-G40* H40' 


ws6["H44"] .value= ' 机 构 定 性 得 分 : ' 
ws6["I144"].value- '-SUM(I4:143)' 


#4 BG 


ws7=wb.create_sheet (' 数 据 ') 
final w-devide list (final_w,100) 


Score table-pd.DataFrame() 

score table[' 指 标 选项 ']= ["A", "B", "C", "D", "E"] 
score_table['##4t']=[100, 80, 60, 40,20] 

write dataframe to excel(ws7,score table,start col-1l,start row 


=1,index=False,columns=True) 


score_table=pd.DataFrame() 
score _table[' 管 理 层 指标 选项 ']= [ 
score table[' 得 分 ']=[100,50] 


,"B"] 


主体 评级 税 型 开发 方法 


write dataframe to excel(ws7,score table,start col-4,start row 


=1,index=False,columns=True) 
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Score table-pd.DataFrame() 

score _ table[' 司 法 指标 选项 -1']= ["A", "B", "C"] 

score table['##4}']=[100,50,0] 

write dataframe to excel(ws7,score table, start_col=7,start_row 


-1,index-False,columns-True) 


Score table-pd.DataFrame() 

score_table[' 司 法 指标 选项 -2']= ["A", "B"] 

score_table[' 得 分 ']= [100,0] 

write dataframe to excel(ws7,score table,start col-10,start 


row=1, index=False,columns=True) 


Score table-pd.DataFrame() 

score_table[' 招 聘 指标 选项 ']= ["A", "B", "C", "D"] 
score table[' 得 分 ']= [100,75, 50,25] 

write dataframe to excel(ws7,score table,start col-13,start [ui 


row=1, index=False,columns=True) 


ws7["A9"].value='##### Hbi) - - -MEWWJZ , REM HE. HEHE! 
ws7["C10"].value- BUR ' 

weigth table-pd.DataFrame() 

weigth table["a"]- ["A1","A2"] 

weigth table["b"]- ["j" My f E" , "公司 属性 "] 

weigth table["c"]- ["20$ ","80$ "] 

write dataframe to excel(ws7,weigth table,start col-1,start 


row-ll,index-False,columns-False) 


ws7["A14"].value- 4 £4 E SEE PERDRE e E" 

input_dir=" D:/Temp/ 风 控 模型 /AHP-" + industry +"- 重 要 性 判断 矩阵 
1.csv" 

weigth table-read csv(input dir) 

weigth table- pd.DataFrame (weigth table,columns- ["A1","A2"], 
index- ["Al","A2"]) 

write dataframe to excel(ws7,weigth table,start col-1,start 


row-15,index-True,columns-True) 


ws7["A20"].value-'& £4 £ £ TERM JZ A1---i&bu)z P, MAM EH S4 4 4 n 


E Be BAK Re we ET M 


BR 
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ws7["C21"].value- ' 最 终 权 重 ' 
weigth_table=pd.DataFrame() 
weigth_table["a"]=["P1","P2"] 

]= [" 经 济 政策 影响 ", "经 济 周期 性 "] 


weigth table["c"]-final w[0:2] 


weigth table[" 


write dataframe to excel(ws7,weigth table,start col-1,start _ 


row-22,index-False,columns-False) 


ws7["A25"].value='"### EE Stk HA HH 8 n 

input dir-" D:/Temp/ 风 控 模型 /AHP-" + industry +"- 重 要 性 判断 矩阵 
2.csv" 

weigth table-read csv(input dir) 

weigth_table=pd. DataFrame (weigth table,columns- ["P1","P2"], 
index- ["P1","P2"]) 

write dataframe to excel(ws7,weigth table,start col-1,start 


row-26,index-True,columns-True) 


ws7["A31"].value- ff £ £ EIU Z A2-- - T b)z P, REN MEH ERI 

ws7["A32"].value- ' 最 终 权 重 ， 

weigth table-pd.DataFrame() 

weigth_table["a"]=["P3","P4","P5","P6","P7","P8","P9","P10", 
"Pr1"] 

weigth table["b"]=[" 资 源 储备 ", "销量 ", "对 外 担保 ", "核心 管理 层 变动 "， 
" 近 1 年 来 被 执行 和 失信 被 执行 次 数 "," 近 1 年 来 是 否 存在 被 银行 冻结 存款 或 起 诉 欠 
aK", " 近 1 年 来 是 否 存 在 被 股东 起 诉 "," 近 1 年 来 是 否 存在 被 小 贷 (民间 借贷 ) 公司 起 
Ve", "招聘 信息 "] 

weigth table["c"]-final w[2:len(final w)] 

write dataframe to excel(ws7,weigth table,start col-1,start 


row-33,index-False,columns-False) 


ws7["A43"].value- E £ E EREADER EE. 

input dir-" D:/Temp/ 风 控 模 型 /AHP-" +industry +"- 重 要 性 判断 矩阵 
3.csv" 

weigth_table=read_csv(input_dir) 

weigth table- pd.DataFrame (weigth_table, columns= ["P3","P4", 
"P5","P6","P7", "PB", "PO", "P10", "P11"], index= ["P3", "P4", "P5", "P6", 
"p", "pg", "por, "PLO", "P11" ]) 

write dataframe to excel(ws7,weigth table,start col-1,start 


row-44,index-True,columns-True) 


主体 评级 税 型 开发 方法 
T 


## 综 合 调整 及 最 终 评级 

ws8-wb.create sheet (' 综 合 调 整 及 最 终 评级 ') 

title list=pd.DataFrame () 

title_1list["a"]=[" 定 量 总 得 分 ", "定性 总 得 分 ", "总 得 分 ", "初始 内 部 等 
级 ","", "公司 是 否 上 市 (上 市 :Y, 未 上 市 :N) "] 


write dataframe to excel(ws8,title list,start col-2,start row 


=1,index=False,columns=False) 


ws8["D1" 
ws8["D2" 
ws8["D3" 
ws8["D4" 
ws8["D6" 


ws8["D8" 
ws8["E8" 
ws8["F8" 
ws8["G8" 


ws8["B9" 
ws8["C9" 
ws8["F9" 


.value='= 定 量 得 分 !F' «str (len (boundarys) +2) 
.value- '-jETEA BI 1144" 

.value-2'-0.7* D1+0.3* D2' 
.value-'-OFFSET (L201,MATCH (D3,M202:M211,1),0)' 


-value- N' 


.value=' 如 果 “ 是 ”, 请 填 "Y”, 否则 填 N' 
.value=' 向 上 调整 /向 下 调整 ' 
.value= ' 最 高 内 部 等 级 调整 ， 

.value= ' 最 低 内 部 等 级 调整 ， 


.value- ' 财 报 的 质量 ' 
.value= ' 标 准 的 无 保留 意见 ' 
.value='=IF (OR (C9=" 财 报 未 经 审计 ", Cc9=" 无 法 发 表意 见 ", C9= 


"否定 意见 ",C9=" 保 留意 见 ") , 5, TF (AND (OR (C9=" 保 留意 见 ", C9=" 带 强调 事项 段 的 
无 保留 意见 "),$ DS 6="Y"),8,""))' 


ws8["G9" 
3,")' 


ws8["B11" 
ws8["C11" 
ws8["E11" 


. value= '- IF (AND (C9=" 标 准 的 无 保留 意见 ", $ DS 6-"Y"), 


.value=' 财 务 披露 的 及 时 性 ' 
.value=' 可 获得 最 新 年 报 ' 
.value='=IF (C11=" 只 能 获取 1 年 前 财报 ",- 2,IF(C11=" 只 能 获 


取 2 年 前 及 更 早 的 财报 "，-4,"")) 


ws8["B13" 
ws8["C13" 
ws8["D13" 
ws8["E13" 


ws8["B15" 


.value- ' 审 计 机 构 的 变更 ' 
.value- ' 过 去 1 年 发 生 过 财报 审计 机 构 变更 情况 ' 
.value-'N' 


.value-'-IF(D13-"Y",-]1,"")' 


.value= ' 综 合 调整 及 最 终 评分 ' 


title_list=pd.DataFrame () 

title list["a"]= [" 经 上 下 调整 后 的 内 部 等 级 "," 经 上 下 、 最 高 等 级 调整 后 的 
内 部 等 级 ", "经 上 下 、 最 高 ,最低 等 级 调整 后 的 内 部 等 级 ", "调整 后 内 部 等 级 ", "内 部 调 
整 "% "内 部 调整 原因 : "，" 内 部 调整 后 等 级 ", "集团 / 母 公司 名 字 ", "集团 / 母 公司 等 级 


Ao 


e 
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调整 (上 调 、 下 调 )", "经 集团 / 母 公司 调整 后 的 内 部 等 级 ", "最 终 内 部 等 级 ", "最 终 内 部 
评级 "] 

write dataframe to excel (ws8,title list,start col-3,start row 
-15,index-False,columns-False) 

ws8["El15"].value-'- IF (DA- SUM (E9: E13) «X 1, 1, IF (DA SUM (E9: E13) > 
10,10,D4+SUM(E9:E13)))' 

ws8["Fl6"].value-'-MIN(E15,F9:F13)' 

ws8["G17"].value-'-MAX(F16,G9:G13)' 

ws8["G18"].value-'-G17' 

ws8["G19"] .value=+1 

ws8["G21"] .value='=IF ((G18+G19) >10,10, IF ((G18+G19)<1,1, (G18+ 
619)))' 

ws8["F22"].value- ' 集 团 / 母 公司 内 部 评级 ' 

ws8["G22"].value-'D' 

ws8["G23"].value--2 

ws8["G24"].value-'-IF((G21*G23)»10,10,IF((G21*G23) «1,1, (G21+ 
G23)))' 

ws8["G25"].value-'-G24' 
-OFFSET (H201,MATCH (G25,1202:1211,1),0)' 


ws8["G26"].value- 


# 

selection list-pd.DataFrame() 

selection list["a"]=[" 财 报 未 经 审计 "," 无 法 发 表意 见 ", "否定 意见 "," 保 
留意 见 "，" 带 强调 事项 段 的 无 保留 意见 ", "标准 的 无 保留 意见 "] 

write dataframe to excel(ws8,selection list,start col-3,start 


row-37,index-False,columns-False) 


selection list-pd.DataFrame() 

selection list["a"]=[" 可 获得 最 新 年 报 ", "可 获得 最 新 半年 报 "," 可 获得 最 
新 半年 报 ", "只 能 获取 2 年 前 及 更 早 的 财报 "] 

write dataframe to excel(ws8,selection list,start col-4,start 


row-37,index-False,columns-False) 


ws8["C64"].value- ' 内 部 评级 ' 

selection list-pd.DataFrame() 

selection list["a"]-[1,2,3,4,5,6,7,8,9,10,11] 

write dataframe to excel(ws8,selection list,start col-3,start 


row-65,index-False,columns-False) 


ws8["D64"].value- ' 评 级 违约 概率 ' 
selection list-pd.DataFrame() 
selection _list ["a"]= ["0. 005% ","0. 04% ","0.13$ ","0. 33$ ", 


主体 评级 税 型 开发 方法 


"0,585 ","0.96* ", "1.68% ","3.98$ ","7,91t$ ","11.01$ ","56.5$ "] 


write dataframe to excel(ws8,selection list,start col-4,start 


“Ky oo Bh 


row= 65, index=False,columns=False) 


ws8["E64"] .value= ' 与 SP 对 应 的 信用 等 级 ' 

selection list-pd.DataFrame() 

selection list["a"]- ["AAA/AA-","A*, A, A-","BBB+, BBB","BBB-", 
"BB+", "BB", "BB-", "B+", "B", "B- ", "CCC/C"] 

write dataframe to excel(ws8,selection list,start col-5,start 


row-65,index-False,columns-False) 


ws8["F64"] .value=' 上 调 ' 

selection_list=pd.DataFrame() 

Selection list["a"]- [0,1,2,3,4,5,6,7,8,9,-1,-2,-3,- 4,-5,- 6, 
去 人 二 二 

write dataframe to excel(ws8,selection list,start col-6,start 


row-65,index-False,columns-False) 


ws8["G64"] .value=' 下 调 ' e 
selection list-pd.DataFrame() 

selection list["a"]- [-1,-2,-3,-4,-5,- 6,- 7,- 8] 

write dataframe to excel(ws8,selection list,start col-7,start 


row-65,index-False,columns-False) 


ws8["H110"].value- ' 内 部 等 级 ' 

selection list-pd.DataFrame() 

selection list["a"]w["D", "C^, "CC", " CCC- ", "COC", "CCCt ", "Ben, 
"B","B*","BB-","BB","BB*","BBB-","BBB","BBB*","A-","A","A*","AA 
-","AA","AA*","AAA"] 

write dataframe to excel(ws8,selection list,start col-8,start 


row=111,index=False, columns=False) 


ws8["I110"].value='>=' 

selection list-pd.DataFrame() 

selection list["a"]-[0,0,0,5,10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 
65,70,75,80,85,90,95] 

write dataframe to excel(ws8,selection list,start col-9,start 


row=111,index=False, columns=False) 


ws8["J110"].value='<' 
selection list-pd.DataFrame() 
selection list["a"]-[0,0,0,10,15,20,25,30,35,40,45,50,55, 60,65, 
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70,75,80,85,90,95,100] 


write dataframe to excel(ws8,selection list,start col-10,start 


_row=111, index=False, columns=False) 


a 


ws8["K111"].value- ' 实 质 性 违约 ' 
ws8["K112"].value- ' 技 术 性 违约 ' 


selection list-pd.DataFrame() 
selection list["a"]- ["Y","N"] 
write dataframe to excel(ws8,selection list,start col-3,start 


row-201,index-False,columns-False) 


selection list-pd.DataFrame() 
selection list["a"]- [3,2,1,0,-1,-2,-3] 
write dataframe to excel(ws8,selection list,start col-4,start 


row=201,index=False, columns=False) 


selection list-pd.DataFrame() 

Selection list["a"]- ["AAA","AA","A","BBB"," BB","B","CCC", 
"CC", "C", "D"] 

write dataframe to excel(ws8,selection list,start col-5,start 


row-201,index-False,columns-False) 


selection list-pd.DataFrame() 
selection list["a"]-[7,6,5,4,3,2,1,0,-1,-2,-3,-4,-5,- 6,- 7] 
write dataframe to excel(ws8,selection list,start col-6,start 


row-201,index-False,columns-False) 


ws8["H201"].value- ' 内 部 评级 标准 ' 

selection list-pd.DataFrame() 

selection list ["a"]- ["D", "C", "CC","CCC", "B", " BB",  BBB"," BBB 
*U,"AU,UAAU,"AAAU] 

write dataframe to excel(ws8,selection list,start col-8,start 


row-202,index-False,columns-False) 


ws8["I201"].value-'»-' 

selection list-pd.DataFrame() 

selection list["a"]-[0,1,2,3,4,5,6,7,8,9] 

write dataframe to excel(ws8,selection list,start col-9,start 


row-202,index-False,columns-False) 


ws8["J201"].value-'«' 


主体 评级 税 型 开发 方法 


selection list-pd.DataFrame() 
selection list["a"]- [1,2,3,4,5,6, 7,8, 9,10] 


“Ky 00 AN 


write dataframe to excel(ws8,selection list,start col-10,start 


row-202,index-False,columns-False) 


ws8["L201"] .value=' 内 部 等 级 ' 

selection list-pd.DataFrame() 

selection list["a"]-[1,2,3,4,5,6,7,8,9,10] 

write dataframe to excel(ws8,selection list,start col-12,start 


row-202,index-False,columns-False) 


T 
1 
' 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
' 
1 
1 
' 
1 
1 
1 
1 
1 
1 
' 
1 
1 
| 
ws8["M201"].value-'»-' i 
selection_list=pd.DataFrame () i 
selection list["a"]- [0,10,20,30,40,50,60,72,82,92] | 
write_dataframe_to_excel (ws8, selection list, start col=13, start_ i 
row=202,index=False,columns=False) | 
! 
ws8["N201"].value='<' 1! 
selection list-pd.DataFrame() e ? 
selection_list["a"]=[10,20,30,40,50,60, 72, 82, 92,100] 
write dataframe to excel(ws8,selection list,start col-14,start 


row-202,index-False,columns-False) 


# 返 回 生 成 的 Excel 版 本 的 评分 卡 模型 


return wb 
#wb.save(' D:/Temp/ 风 控 模型 /wbtest .xlsx') 


# 使 用 开发 的 评分 卡 模型 ,评估 样本 公司 
def company scoring and ranking(factors set,boundarys, importance, 
dictionary,final w,qualitative data): 

output set-pd.DataFrame () 

weight list-importance["importance"] 

coefficient list-importance ["coefficients"] 

order list-[] 

f num-int((len(factors set.columns)-3)/3) 

f names-list(factors set.columns) 


f names-f names[2: (2*f num)] 


fori in range(len(f names)): 
for j in range (len (dictionary["HET"])): 
if(f names[i] ==dictionary["#"][j]): 
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order_list.append (int (dictionary[" 排 序 "] [j])) 
order list-order list +order list 


for i in range(len(f names)): 
order list.append(-1) 
factors set.index-range (len (factors set)) 
fori in range(len(factors set["CODE"])): 
#i=10 
Score record-pd.Series() 
Score record["CODE"]-factors set.ix[i,"CODE"] 
Score record["COMP NAME"]-factors set["COMP NAME"].iloc[i] 


isDefault-list(factors set["isDefault"])[i] 


scores-[] 
factors-factors set. iloc[i,2: (len (factors set.columns)-1)] 
# 查 询 评分 表 
for j in range (len (factors)): 
#j=1 
if factors[j] ==None: 
scores.append (0) 
elif factors[j] <boundarys.iloc[j,0]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
scores.append(0) 
else: 
Sscores.append(100) 
elif factors[j] >=boundarys.iloc[j,0] and factors[j] < 
boundarys.iloc[j,1]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
scores.append(10) 
else: 
scores.append (90) 
elif factors[j] >=boundarys.iloc[j,1] and factors[j] < 
boundarys.iloc[j,2]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
Scores.append(20) 
else: 
scores.append (80) 


elif factors[j] >=boundarys.iloc[j,2] and factors[j] < 


主体 评级 税 型 开发 方法 


boundarys.iloc[j,3]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
Scores.append(30) 
else: 
Scores.append(70) 
elif factors[j] >=boundarys.iloc[j,3] and factors[j] < 
boundarys.iloc[j,4]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
Scores.append(40) 
else: 
Scores.append(60) 
elif factors[j] >=boundarys.iloc[j,4] and factors[j] « 
boundarys.iloc[j,5]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
Scores.append(50) 
else: 
scores.append (50) 
elif factors [j] >=boundarys.iloc[j,5] and factors[j] < 
boundarys.iloc[j,6]: 
if order_list [j] ==1 or (order_list [j] ==0 and 
coefficient_list[j] <0): 
scores.append (60) 
else: 
scores.append (40) 
elif factors[j] >=boundarys.iloc[j,6] and factors[j] < 
boundarys.iloc[j,7]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
scores.append(70) 
else: 
scores.append (30) 
elif factors[j] >=boundarys.iloc[j,7] and factors[j] < 
boundarys.iloc[j,8]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
scores.append (80) 
else: 
scores.append (20) 


elif factors[j] >=boundarys.iloc[j,8] and factors[j] < 
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boundarys.iloc[j,9]: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
Scores.append(90) 
else: 
Scores.append(10) 
else: 
if order list[j] ==1 or (order list[j] ==0 and 
coefficient list[j] «0): 
scores.append(100 
else: 
scores.append (0) 
# 计 算得 到 定量 总 得 分 
score record["SCORE QUANTITATE"]-sum(weight list * scores) 
# 定 性 部 分 的 得 分 
level_list=[[100,0], 
[100,50], 
[100,60,30], 
[100,75,50,25], 
[100,80,60,40,20]] 
# 定 性 部 分 的 选项 
selection list-[['A', 'B'], 
['A','B'] 
[AT "B" en] 
PAB tos tp, 
(tA BC’ Tp, Ag) 


level select list-[5,5,5,5,5,2,3,1,1,1,4] 
# 计 算得 到 定性 总 得 分 
factors-qualitative data[qualitative data['COMP NAME']-- 
str(factors set.iloc[i,1])] 
if len(factors) ==0: 
Score record["SCORE QUALITATIVE"]-score record["SCORE _ 
QUANTITATE"] 
else: 
factors-factors.iloc[0][2:] 
scores 2-[] 
for j in range (len(factors)): 
#j=1 
level_select=level_select_list[j] 
marking=pd.DataFrame () 
marking ["SELECTION"]=selection_list[level_select-1] 


主体 评级 税 型 开发 方法 


marking["SCORE"]-level list[level select-1] 
scores 2.append(list (marking [marking['SELECTION'] = 
-factors[j]].iloc[0]) [1]) 


Score sum-0 
for j in range(len(final w)): 
Score sum *t-final w[j] * scores 2[j] 

# 定性 部 分 得 分 

Score record["SCORE QUALITATIVE"]-score sum/100 

# 总 得 分 

score record["SCORE W"]-score record["SCORE QUANTITATE"] * 
0.7 *score record["SCORE QUALITATIVE"] * 0. 3 

Score record["IS DEFAULT"]-int (isDefault) 

output set-output set.append(score record,ignore index- 


True) 


output set- output set.sort values (by=" SCORE W", axis= 0, 
ascending-False) 

output set-pd.DataFrame (output set,columns- ['CODE', 'COMP NAME', 
'SCORE QUANTITATE', 'SCORE QUALITATIVE', 'SCORE W', 'IS DEFAULT']) 


return output set 


industry=" 采 矿业 "# 此 处 以 采矿 业 举例 


# 人 模 指标 筛选 -定量 数据 


selected_set=index_select (industry,0.2) 


# 定 性 数据 
try: 
with con.cursor() as cursor: 
query-"SELECT * FROM creditrisk." +industry +";" 
cursor.execute (query) 
result-cursor.fetchall() 
finally: 


con.close 


pre qualitative data-pd.DataFrame (result,columns- ['CODE', 'COMP_ 
NAME", "经 济 政策 影响 "，' 经 济 周期 性 '，' 公 司 性 质 '， "已 使 用 授信 额度 占 比 "，' 对 外 
担保 ',' 核 心 管理 层 变 动 ', ' 近 1 年 来 被 执行 和 失信 被 执行 次 数 ',' 近 1 年 来 是 否 存在 
被 银行 冻结 存款 或 起 诉 欠 款 ',' 近 1 年 来 是 否 存 在 被 股东 起 诉 '，' 近 1 年 来 是 否 存在 
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被 小 贷 (民间 借贷 ) 公司 起 诉 '，' 招 聘 信息 ']) 


qualitative data-pd.DataFrame() 
qualitative data-qualitative data.append (pre qualitative data. 
iloc[0,]) 


for i in range(1,len(pre qualitative data)): 
if pre_qualitative_data.iloc[i,1] in list(qualitative data.COMP_ 
NAME) : 
continue 
else: 
qualitative data-qualitative data.append(pre qualitative 


data.iloc[i,]) 


qualitative data-pd.DataFrame (qualitative data, columns- ['CODE', 
'COMP NAME' , "经 济 政策 影响 ",' 经 济 周期 性 ', IA REPERI, ' 已 使 用 授信 和 额度 占 比 '， 
' 对 外 担保 ',' 核 心 管理 层 变 动 ', ' 近 1 年 来 被 执行 和 失信 被 执行 次 数 ',' 近 1 年 来 是 
否 存在 被 银行 冻结 存款 或 起 诉 欠 款 ',' 近 1 年 来 是 否 存在 被 股东 起 诉 '，' 近 1 年 来 是 
d ff dE MEINTE (民间 借贷 ) 公 司 起诉 ',' 招 聘 信息 1 1) 


# 趋 势 及 波动 性 计算 

factors set l=calculate factors (selected set,2016) 
factors set 2-calculate factors (selected set,2015) 
factors set 3-calculate factors (selected set,2014) 
factors set-copy.copy(factors set 1) 

factors set-factors set.append(factors set 2) 


factors set-factors set.append(factors set 3) 


# 权重 计算 


weight set-factors set.iloc[:,2:] 


fori in range(len(weight set)): 
for j in range(weight_set.columns.size): 
if math.isinf(weight set.iloc[i,j]): 
weight set.iloc[i,j]-0 
T3 58 ILU 
logistic-LogisticRegression() 
logistic.fit(weight set.iloc[:,:-1],weight set.isDefault.astype 
(int)) 
intercept-logistic.intercept [0] 


imp-list(logistic.coef [0]) 


主体 评级 税 型 开发 方法 


logcoef=[] 


for i in range(len(imp)): 


logcoef.append(math.log(abs(imp[i]) * 1.3 +imp[i])) 


for i in range(len(imp)): 


imp [i]=abs(logcoef [i] - (intercept +min(logcoef) )) 


total=sum(imp) 
for i in range(len(imp)): 
imp [i]=imp[i]/total 
# 计算 定量 部 分 的 权重 
importance-pd.DataFrame (('name': list (weight_set.iloc[:,:-1]), ' 


importance': imp, 'coefficients': list (logistic.coef_[0])}) 


# 定 性 权重 


final w=get qualitative weigth (industry) 


# 评 分 边界 计算 
boundary set-factors set. iloc[:i2: (factors set.columns. size -1)] 
boundarys-pd.DataFrame() 


factor names- TISE (boundary_set.columns) 


for i in range(boundary set.columns.size): 
temp_boundarys=quantile (boundary set[factor names[i]],11) 
boundarys [factor names [i]] = temp boundarys [1: (len (temp _ 


boundarys)-1)] 


boundarys.index- [10,20,30,40,50,60,70,80,90,100] 


boundarys-boundarys.T 


# 数 据 字 典 

dictionary=readwb("D:/Temp/ 风 控 模型 /信用 风险 数据 集 市 -数据 字典 .xlsx"， 
"Sheet1") 

dictionary= pd. DataFrame (dictionary [1: len (dictionary) ], columns= 
dictionary[0]) 

dictionary-dictionary.iloc[0:131,1:5] 


factor type-'' 
for i in range (len (dictionary .类 型 ) ): 
if dictionary.2ÉX [i] !-'None': 
factor type=dictionary. 类 型 .iloc[i] 
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else: 
dictionary. # [i]=factor_ type 

# 生 成 Excel 版 本 的 评分 卡 模型 ,并 保存 到 计算 机 
wb = construct _ scorecard (selected set, factors set, boundarys, 
importance,dictionary,final w,industry) 
wb.save(' D:/Temp/ d$ Bi /wbtest.xlsx') 
# 评 估 所 有 样本 ,并 将 结果 保存 到 Excel 中 
rankings- company scoring and ranking (factors set 1, boundarys, 
importance,dictionary,final w,qualitative data) 
rankings wb-openpyxl.Workbook() 
ws-rankings wb.active 
write dataframe to excel(ws,rankings,start _col=1, start_row=1, 
index-False,columns-True) 


rankings wb.save(' D: / Temp / AE EE / ' c industry+ ' rankings.xlsx') 


综 上 ,本 节 重 点 介绍 的 是 通过 调整 模型 结构 来 缓 释 财务 粉饰 对 评估 企业 信 
用 风险 影响 的 实用 方法 。 对 于 深入 研究 并 实 操 过 资本 市 场 财务 数据 统计 分 析 工 
作 的 读者 来 说 ,肯定 会 有 异常 发 现 , 如 副 利 状况 跟 违 约 状 态 成 正比 , 即 列 利 能 力 
越 强 , 违 约 风险 越 大 。 虽 然 这 种 正 相 关 的 系数 很 小 ,但 毕竟 是 大 于 零 的 正 相关 系 
数 , 也 是 严重 的 异常 结果 。 

面 对 这 种 情况 普遍 存在 的 现状 下 ,很 多 科学 .专业 的 模型 开发 方法 基本 都 是 
不 适用 的 ,作为 普通 的 信用 债 投资 者 我 们 无 力 改变 现状 ,只 能 改变 信用 债 投资 分 
析 的 架构 和 方法 ,尽量 减少 财务 粉饰 对 挖掘 企业 真实 还 款 能 力 的 影响 。 此 处 介 
绍 的 方法 ,是 笔者 多 年 来 的 实践 经 验 总 结 ,笔者 也 相信 有 更 好 的 方法 ,欢迎 广大 
读者 来 信 交 流 。 


Python 语言 基础 


1. 安装 和 配置 Python 集成 开发 环境 


在 众多 的 Python 集成 开发 环境 (IDE) 中 ,Anaconda 无 疑 是 应 用 最 广泛 、 最 
受 广大 Python 爱好 者 使 用 的 IDE 之 一 。Anaconda 也 是 一 个 包含 众多 Python 
包 的 集合 ,安装 Anaconda 的 同时 就 预先 集成 了 如 Numpy、 Scipy, Pandas, 
Scikit-learn 等 180 多 个 在 数据 分 析 领 域 常 用 的 包 , 这 对 于 初学 者 来 说 是 一 个 天 
大 福音 。 

除 此 之 外 ,Anaconda 还 有 很 多 的 优点 ,主要 包括 可 以 在 安装 Anaconda 的 
同时 自动 配置 环境 变量 ,无 须 再 为 配置 复杂 的 环境 变量 而 苗 恼 ,也 可 通过 
Anaconda 管理 工具 包 、 开 发 环境 、Python 版 本 ,从 而 大 大 简化 工作 流程 。 使 用 
Anaconda 不 仅 可 以 方便 地 安装 、 更 新 、 印 载 工具 包 , 而 且 安 装 时 能 自动 安装 相应 
的 依赖 包 , 同 时 还 能 达到 使 用 不 同 的 虚拟 环境 隔离 不 同 项 目的 要 求 。 

安装 Anaconda 时 ,首先 访问 Anaconda 官网 (https://www. anaconda, 
com/) ,用 鼠标 选择 Products. it Download, 如 图 A-1 所 示 。 


LJ 5 
Q oy 
© ANACONDA Wiss Ancona? [Poss] sen "s a ae x: ^ 1 Downioed 
inacond: Microsoc 
Python-Powered Machine Learning 


The Most Populer Python Data Science Platform 


图 A-1 Anaconda 官网 


BEA Anaconda 下载 页 面 ,选择 Windows 版 本 ,并 单 击 Windows 图 标 , 如 
图 A-2 所 示 。 

选择 集成 Python3. 6 版 本 的 Anaconda 下 载 , 根 据 自 身 机 器 硬件 的 配置 ,可 
选择 64 位 版 本 和 32 位 版 本 。 根 据 笔 者 自己 电脑 的 硬件 配置 ,本 书 选择 集成 32 
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© ANACONDA Whats Anaconda? Products Support Community About Resources 


Download Anaconda Distribution 
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High-Performance Distribution Package Menagement Portal to Data Science 
Easily Install 1,000" data science Manage packages dependencies ‘Uncover insights in your data and 
packones anc environments with conda create interactive visualizations 


图 A-2 安装 Windows 版 本 的 Anaconda 


位 版 本 的 Anaconda 下 载 ,如 图 A-3 所 示 。 


© Downloads | Anaconda. \ Wd 
ESI [0 ge psy; 


O ANACONDA. 


图 A-3 选择 32 位 版 本 的 Anaconda 


安装 Anaconda, 单 击 “I Agree” 按 钮 ,如 图 A-4 所 示 。 


© Anaconda3 5.0.1 (32-bit) Setup s [m] x 


License Agreement. 
Oo ANACONDA please review the icense terms before instaling Anaconda3 5.0.1 


Press Page Down to see the rest of the agreement. 


and use in source and binary forms, with or without modification, are 
provided that the following conditons are met: 
v 
If you accept the terms of the agreement, cick I Agree to continue. You must accept the 
agreement to install Anaconda3 5.0. 1 (32-bit). 


Anaconda, Inc, 


图 A-4 安装 Anaconda 


Python 语言 基础 
pont Sati 


选择 Anaconda 安装 的 类 型 ,此 处 我 们 选择 *Just Me(recommended)”, 如 图 H 


A-5 所 示 。 | 


图 A-5 选择 Anaconda 安装 类 型 


选择 安装 位 置 , 并 单 击 "Next" 按 钮 ,如 图 A-6 所 示 。 


! 
1 

© Anaconda3 5.0.1 (32-bit) Setup ma 口 x 1 
P Select installation Type 1 
ANACONDA Please select the type of installation you would like to perform for 1 
Anaconda3 5.0.1 (32-bit). 4 

' 

| 

1 

1 

图 Just Me (recommended) ! 

O Al Users (requires admin privieges) i 

1 

I 

Anaconda, Inc, ! 
[<Back | Wet» | | 

1 
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O Anaconda3 5.0.1 (32-bit) Setup = x im 


* Choose install Location 
O ANACONDA Choose the folder in which to install Anaconda3 5.0. 1 (32-bit). 


Setup will install Anaconda3 5.0. 1 (32-bit) in the following folder. To install in a different 
folder, dick Browse and select another folder. Click Next to continue. 


Destination Folder 


[roger Gai | CE 


Space required: 2.0GB 
Space available: 22.8GB 


Anaconda, Inc. 


[sme oven ] 
图 A-6 ”选择 安装 位 党 


勾 选 “Add Anaconda to my PATH environment variable" 和 “ Register 
Anaconda as my default Python 3. 6” 两 个 高 级 选项 ,并 单 击 “Install” 按 钮 ,如 
图 A-7 所 示 。 

Anaconda 安装 完成 ,并 单 击 “Next” 按 钮 ,如 图 A-8 所 示 。 

结束 安装 , 单 击 “Finish” 按 钮 ,如 图 A-9 所 示 。 

测试 Python 是 否 安装 成 功 。 单 击 Windows 开始 ,输入 “cmd”, 并 按 回 车 
键 ,在 弹出 的 “命令 提示 符 ” 中 输入 “python”, 并 按 回 车 键 。 如 果 显 示 图 A-10 所 
示 的 返回 结果 , 则 表明 Anaconda 安装 成 功 。 

查看 已 经 安装 的 Python 包 。 重 新 打开 Windows 命令 提示 符 , 输 入 “conda list". 
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O Anaconde3 5.0.1 (32-bit) Setup = x 


4 Advanced installation Options 
ANACONDA Customize how Anaconda integrates with Windows 


‘Advanced Options 


EZ Add Anaconda to my PATH environment variable 


Not recommended. Instead, open Anaconda with the Windows Start 
menu and select "Anaconda (32-bit)". This "add to PATH" option makes 


回 Regster Anaconda as my default Python 3.6 


This wil allow other programs, such as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDev, and MSI binary packages, to automatically 
detect Anaconda as the primary Python 3.6 on the system. 


Anaconda, Inc. 


[ma] | omm] 


图 A-7 选择 安装 高 级 选项 


O Anaconda3 5.0.1 (32-bit) Setup = 


# installation Complete 
Å ) ANACONDA setup was completed successfuly. 


Completed 
he NER] 
Output folder: D: Anaconda ^ 

Creating Anaconda3 menus... 


Execute: "D: Anaconda pythonw.exe" 上 -s "D: Anaconda \Lib \_nsis.py” mkmenus 
Execute: "D: Mnaconde |pythonw.exe" -£ -s "D: Wnaconda Lib! nsis.py" mkdirs 
Running post install... 

Execute: "D: Wnaconda pythonw.exe" E -s "D: \Anaconda|\Lib\_nss.py” post. install 
Execute: "D: Wnaconda pythonw.exe" -E -s "D: Vinaconda Vb! nsis.py" addpath 3.6... 
Execute: "D: Mnaconda |pythonw.exe" £ -s "D: Vinaconda pkgs | co-config. py" F:\... 


Created uninstaller: D: Anaconda \Uninstall-Anaconds3.exe E| 
Completed {v 
Anaconda, Inc. 
Eoma 
图 A-8 完成 安装 Anaconda 
© Anaconda3 5.0.1 (32-bit) Setup = x 
Thanks for installing Anaconda3! 
D) Anaconda is the most popular Python data science platform. 
Share ebooks, 7 ‘and environments: 
ANACONDA Shere your notebosts, packages, projects 
EZ Leam more about Anaconda Cloud 
[Zi Leam more about Anaconda Support 


=) Ie 


图 A-9 结束 安装 Anaconda 
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图 A-10 测试 Python 是 否 5 


并 按 回 车 键 ,已 经 安装 的 Python 包 会 很 多 ,部 分 Python 包 如 图 A-11 所 示 。 


图 A-11 部 分 Python 包 


测试 集成 在 Spyder IDE 中 的 Python 交互 命令 iPython 是 否 安装 成 功 , 打 
Jf Windows 命令 行 ,输入 “iPython” 并 按 回 车 键 ,输出 图 A-12 所 示 的 结果 , 则 表 
明 iPython 安装 成 功 。 


选择 Python: C:Users/cuiyu 


图 A-12 测试 iPython 是 否 安 装 成 功 


m 


单 击 “ 开 始 ”, 找 到 Anaconda3 (32-bit) ,并 单 击 “Spyder”, 启动 Python 集成 


> mE 
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发 环境 Spyder. Wh Al A-13 Pra. 


Acrobat Reader DC 


P Agricultural Bank of China S... 


| Anaconda3 (32-bit) 
Anaconda Navigator 
Anaconda Prompt 
Jupyter Notebook 
Reset Spyder Settings 


M Spyder 


Cortana (小 娜 ) 


图 A-13 启动 Python IDE Spyder 


Spyder 集成 开发 环境 ,如 图 A-14 所 示 。 


© Spyder Python 36) ox 
File Edit Search Source Run Debug Consoles Projects Tools View Help 
D&5'tmgSorBBeeHcegc»N ri mt^ 


D or Q Sourcoonsole “| Object CE 
1 odin - B 
f 
Bcreated on Mon Jan 1 17:28:17 2018 
4 
Sgauthor: Yuzheng.Cui 
aoe 
7 
8 

> Help. 
Variable explorer | File explorer | Find in files | vein [Static code analysts 
回 Console 1/10 aa 


Python 3.6.3 |Anaconda, Inc.| (default, Oct 15 2017, 07:29:16) [MSC v.1900 ^ 
32 bit (Intel)] 
Type "copyright", "credits" or "license" for more information. 


IPython 6.1.0 -- An enhanced Interactive Python 


In [1]: 


TPrthon console | Mater lag 
Permissions: mw  End-ctlines cme Encoding: UTF® Line: 8 Column: 1 |Memory: 53% 


图 A-14 Spyder 集成 开发 环境 


2. 下 载 Python 帮助 文档 


Python 语言 集成 了 大 量 的 关键 字 和 函数 ,在 日 常 的 使 用 过 程 中 需要 经 常 查 
Bel ,为 了 方便 读者 在 任意 环境 ,尤其 是 无 网 络 的 情况 下 获取 Python X HEF Fil PR 
数 的 帮助 ,此 处 介绍 一 种 离线 获取 帮助 的 方法 。 

首先 ,访问 Python 官网 (https://www. python. org/) ,并 单 击 “Documentation”， 


Python 语言 基础 


如 图 A-15 所 示 。 


-Phttps//wwwpythonorg/ P ~ @ Python Software Found.. © @ Welcome to Py.. 


图 A-15 Python 官网 


选择 下 载 Python 3 的 帮助 文档 , 单 击 *Python 3. x Docs”, 如 图 A-16 所 示 。 


©- f https;//wwwpythonorg/doc/ D - â th DigiCert iR O. Our Document. 


Python 


e? python 2 HENEEEEN | 


About Downloads Documentation Community Success Stories News. Events 


Browse the docs online or download a 


copy of your own. Python's 
documentation, tutorials, and guides 
are constantly evolving. 


Get started here, or scroll down for documentation broken out by type and subject. 
Python3xDocs | Python 2.x 


See als 


图 A-16 FÆ Python 3. x Docs 文档 


TA Python 3. 6. 4 AY Ej 2E fi By 3c FY. AAG“ Download these documents”, 如 
到 A-17 所 示 。 
此 处 ,建议 下 载 “HHTML” 格 式 的 帮助 文档 ,因为 其 提供 的 搜索 功能 ,可 更 全 
面 `. 更 强大 地 获取 读者 所 需要 的 帮助 信息 。 右 击 “Download” .下载 “HTML? 格 
式 的 帮助 文档 ,如 图 A-18 所 示 。 

将 下 载 完 成 的 帮助 文档 ,解压 到 指定 文件 夹 。 在 所 有 的 解压 文件 中 ,找到 
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Bownioad Python 3.6.4 documentation 

Download these documents 
Welcome! This is the documentation for Python 3.6.4. 

Docs for other versions 

Python 3.7 (in development) Parts of the documentation: 

Python 3.5 (stable) 

Python 2.7 (stable) 

(Old versions What's new in Python 3.6? 

or all "What's new" documents since 2.0 

Other resources 

PEP Index Tutorial 

Beginner's Guide start here 

Book List 

ELI I Library Reference 


keep this under your pillow 


Language Reference 
describes syntax and language elements 


Python Setup and Usage 
how to use Python on different platforms. 


Installing Python Modules 
installing from the Python Package Index & other sources 


Distributing Python Modules 
publishing modules for installation by others 


Extending and Embedding 
tutorial for C/C++ programmers 


Python/C API 
reference for C/C++ programmers 


FAQs 


图 A-17 Python 3.6.4 下载 页 面 


J Œ- [2] https//docs python.org/3/download.html JB - @ Python Software Found... G| (6i Download — P.. x |] 


Wh Python » [English v][3.64 — v] Documentation » 


Last updated on: Jan 06, 2018. 


Format Packed as .zip 
PDF (US-Letter paper size) Download (ca. 13 MB) 


Download Python 3.6.4 Documentation 


To download an archive containing all the documents for this version of Python in one 
The numbers in the table are the size of the download files in megabytes. 


PDF (A4 paper size) Download (ca. 13 MB) 
HTML Download (ca. 9 MB) 
Plain Text Download (ca. 3 MB) 
EPUB Download (ca. 5.5 MB) 


These archives contain all the content in the documentation. 


Packed as .tar.bz2 
Download (ca. 13 MB) 
Download (ca. 13 MB) 
Download (ca. 6 MB) 
Download (ca. 2 MB) 


图 A-18 下 载 *“HTML” 格 式 的 帮助 文档 


"index. html” 文 件 ,并 双击 打开 ,如 图 A-19 所 示 。 


如 需 查 找 某 一 函数 或 关键 字 的 用 法 ,可 在 右上 角 的 搜索 框 中 输入 该 关键 字 ， 


并 单 击 “Go” 按 钮 ,如 图 A-20 所 示 。 


此 处 ,以 获取 Python 内 置 函数 “open” 的 帮助 为 例 ,在 图 A-21 所 示 的 搜索 
结果 中 ,找到 含有 “Built 一 in Functions” 注 释 的 “open” 函 数 , 如 图 A-21 所 示 。 
单 击 图 A-21 中 的 “open” 函 数 链接 ,可 得 到 图 A-22 所 示 的 “open” 函 数 的 详 


细 语 法 和 参数 解释 。 


E(E) » OPython » python-3.6.4-docs-html v|Ob| 2 pythor 
Bm É 修改 日 其 

® genindex-=.htm! 2018/1/6 7:21 
S genindex- 环 html 2018/1/6 7:21 
S genindex-à1& html 2018/1/6 7:21 
S genindex- 例 html 2018/1/6 7:21 
® genindex- 属 .html 2017/9/1 16:36 
霸 genindex- 位 html 2017/9/1 16:36 
^ genindex- 文 html 2018/1/6 7:21 
® genindex- 演 .html 2018/1/6 7:21 
® genindex- 组 .html 2018/1/6 7:21 
^ issary.html. 2018/1/6 8:08 

2018/1/6 8:09 
^^ license.html 2018/1/6 8:09 


图 A-19 FJ FF“ index. html” X: fF 


/© oP ythoripython-3.64-does-himiindex html P ~- 6B 354 Documen.. x IB] 
}® Python » [Engish v) [384 V] Documentation » Eo] | 
— Python 3.6.4 documentation 
load these documents. 
Welcome! This is the documentation for Python 3.6.4. 
Docs for other versions 
Python 3.7 (in development) Parts of the documentation: 
Python 3.5 (stable) 
Python 2.7 (stable) 
Old versions What's new in Python 3.6? 
biaa AE E ONENE Installing Python Modules 
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modules| 


图 A-20 搜索 需要 帮助 的 内 容 


[EE tle///E/OPython/python-3.6.4-docs-html/search.html?q -open&check keywords-yest © ~ © (B Search — Pyth... x 六 


Search Results 


Search finished, found 272 page(s) matching the search query. 


+ E aifc.open (Python function, in 22.2. aife — Read and write AIFF and AIFC files) 

+ E bz2.open (Python function, in 13.3. 622 — Support for bzip2 compression) 

+ E codecs.open (Python function, in 7.2. codecs — Codec registry and base classes) 

+ E] dbm.dumb.open (Python function, in 12.5. atm — Interfaces to Unix "databases") 

+ E] dbm.gnu.open (Python function, in 12.5. dbm — Interfaces to Unix “databases”) 

+ E] dbm.ndbm.open (Python function, in 12.5. äm — Interfaces to Unix "databases") 

+ E] dbm.open (Python function, in 12.5. abm — Interfaces to Unix "databases") 

+ E distutils.text file.TextFile.open (Python method, in 10. API Reference) 

+ E] gzip.open (Python function, in 13.2. gzip — Support for gzip files) 

+ E] imaplib.IMAP4.open (Python method, in 21.15. imapiib — IMAPA protocol client) 

* E io.open (Python function, in 16.2. 1o — Core tools for working with streams) 

* E] Izma.open (Python function, in 13.4. 1zma — Compression using the LZMA algorithm) 
@ open (Python function, in 

* E| os.open (Python function, in 16.1. os — Miscellaneous operating system interfaces) 


Built-in Functions) 


图 A-21 搜索 文件 读 取 函 数 open 
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ee 3 doc ay fiom Minnis ohiopeniopr D = ©] 2. tarn fuae T 
open (fie, mode=7, buf c b vn)] — 


EA file and retum a TT file object. If the file cannot be = an OSError is raised. 


file is a path-like object giving the pathname (absolute or relative to the current working directory) of the file to be Gpilled or an integer file descriptor of the file to be 
wrapped. (Ifa file descriptor is given, it is closed when the returned I/O object is closed, unless closefd is set to False.) 


‘mode is an optional string that specifies the mode in which the file is OBBiied. It defaults to ME" which means 丽 而 for reading in text mode. Other common values 
are iit for writing (truncating the file if it already exists), *x* for exclusive creation and "a" for appending (which on some Unix systems, means that all writes ap- 
pend to the end of the file regardless of the current seek position). In text mode, if encoding is not specified the encoding used is platform dependent: 
locale.getpreferredencoding(False) is called to get the current locale encoding. (For reading and writing raw bytes use binary mode and leave encoding un- 
specified.) The available modes are: 


| BAR for reading (default) 
| BBA for writing, truncating the file first 


C 
vi 
| x! | BER for exclusive creation, failing if the file already exists 
C | iii for writing, appending to the end of the file if it exists 
IL | binary mode 
C | text mode (default) 
[m | GBB a disk fle for updating (reading and writing) 
E: | universal newlines mode (deprecated) 


图 A-22 获取 文档 读 写 函 数 的 语法 和 使 用 帮助 


3. Python 语法 基础 


1) 变量 和 算术 表达 式 

Python 是 一 种 动态 类 型 的 语言 ,在 程序 执行 过 程 中 ,变量 名 称 会 被 绑 定 到 
不 同 的 值 , 而 且 这 些 值 可 以 属于 不 同 的 类 型 。 赋 值 运算 符 的 作用 仅仅 是 在 名 称 
和 值 之 间 创 建 一 种 关联 ,尽管 每 个 值 都 有 一 个 相关 的 类 型 ,如 integer aK string, 
但 变量 名 称 是 无 类 型 的 。 一 个 变量 名 称 可 以 在 执行 过 程 中 引用 任意 类 型 的 
数据 。 

Python 的 语法 规则 跟 R 语言 有 很 大 的 不 同 , 采 用 的 是 Pascal 语法 规则 , 即 
以 空格 调整 的 代码 块 作为 基本 的 代码 段 或 函数 体 。Python 不 会 指定 所 需 缩 进 
的 量 ,只 要 在 一 个 代码 块 中 保持 一 致 即 可 。 然 而 ,每 个 缩 进 层次 使 用 4 个 空格 是 
最 常见 的 情况 , Spyder 集成 开发 环境 默认 采用 的 就 是 4 个 空格 作为 缩 进 层 
次 的 。 

我 们 以 一 个 示例 来 说 明 Python 的 变量 和 表达 式 , 示 例 代码 如 下 所 示 。 

#1) 变量 和 算术 表达 式 

# 复 利 的 计算 

principal=1000 # 本 金 

rate=0.05 # 利 率 

numYears=10 # 年 数 

year=1# 从 第 1 年 开始 

while year<=numYears: 

principal=principal * (1+rate) 
print (year, round (principal, 4)) # 输 出 年 份 和 本 金 (保留 四 位 有 效 数 字 ) 
print ("$3d $0.4f" $(year,principal)) # 格 式 化 输出 , year 为 3 位 整数 ， 


Python 语言 基础 
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principal 为 4 位 小 数 
print("(0:3d) {1:0.4f}".format (year,principal)) # 用 format 函数 做 
格式 化 输出 
print (format (year,"3d"), format (principal,"0.2f")) # 用 format PK 
数 做 格式 化 输出 
yeart=1 
2) 条 件 语句 
Python 语言 中 使 用 if 和 else 两 个 关键 字 来 实现 条 件 执行 ,其 中 if 和 else 
子 句 的 主体 是 用 缩 进来 表示 的 , 且 else 子 句 是 可 选 的 。 当 供 选 择 的 条 件 有 多 个 
时 ,通常 使 用 or、and 和 not 关键 字 来 组 成 布尔 表达 式 ,以 实现 条 件 执行 。 
Python 语言 中 没有 类 似 C 语言 中 的 switch/case 语句 来 实现 多 条 件 选择 ， 
但 可 以 使 用 elif 语句 来 实现 这 个 功能 。 
我 们 以 一 个 示例 来 说 明 Python 语言 的 条 件 语句 ,示例 代码 如 下 所 示 。 


#2) 条 件 语句 
x=3 
y=8 
if x<y: 
print("x is less than y") 
else: 


print("x is not less than y") 


if x<y: 

pass # 创 建 一 条 空 语句 ,什么 也 不 执行 
else: 

print ("Program Executing": ™) 


# 使 用 or、and 和 not 关键 字 组 成 布尔 表达 式 
name="Alice" 
type="private memory" 
age=6 
if name=="Alice" and type=="private memory" and not (age<4 or age>8): 
print ("Passed!") 
else: 
print ("Failed!") 
HEH exit 语句 做 多 条 件 检验 
suffix=".jpg" 
context="" 
if suffix==".htm": 
content-"text/html" 
print("The content is:",content) 
elif suffix--".jpg": 


content-"image/jpeg" 
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print("The content is:",content) 
elif suffix--".png": 

content-"image/png" 

print("The content is:",content) 
elif suffix--".txt": 

content-"text/txt" 

print ("The content is:",content) 
else: 


raise RuntimeError ("Unknown content type!") 


30 文件 的 输入 和 输出 

Python 语言 中 内 置 了 open() 函 数 用 于 返回 一 个 新 的 文件 对 象 ,通过 调用 
该 对 象 的 方法 可 以 执行 各 种 文件 操作 ,如 调用 该 文件 对 象 的 readline() 方 法 可 
以 读 取 文 件 中 一 行 的 全 部 内 容 , 包 括 每 行 结 尾 的 换行 符 也 能 同时 读 取 。 使 用 
readline() 方 法 读 至 文件 结尾 时 ,将 返回 空 字符 串 。 因 此 ,为 了 读 取 一 个 文件 的 
全 部 内 容 , 需 要 循环 读 取 每 一 行 ,直到 readline() 方 法 返回 空 值 为 止 。 

在 用 open() 函 数 打 开 文 件 时 ,可 通过 传人 特定 的 参数 ,表明 打开 文件 的 方 
式 , 如 传人“r” 参 数 时 表明 以 只 读 的 形式 打开 文件 ;传人 “w” 参 数 时 表明 以 可 写 
的 形式 打开 文件 ;传人 “rw” 参 数 时 表明 以 读 写 的 形式 打开 文件 。Python 语言 中 
还 可 以 使 用 input() 函 数 实现 交互 式 地 读 取 用 户 的 输入 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 文件 输入 和 输出 ,示例 代码 如 下 
所 示 。 


#3) 文 件 的 输入 和 输出 
# 读 取 文件 内 容 , 并 循环 输出 
f-open("news-today.txt","r",encoding- 'UTF-8') # 返 回 一 个 文件 对 象 , 文 
件 内 容 为 中 文 时 ,用 “UTF- 8” 编 码 方式 , "r" 表 示 以 只 读 的 形式 打开 文件 
line-f.readline ()# 调 用 readline() 方 法 ,每 次 读 取 一 行文 件 内 容 
while line: 
print (line,end='')# 输 出 读 取 的 内 容 , 并 忽略 换行 符 
line-f.readline ()# 继 续 读 取 文件 的 下 一 行 ,直到 line 值 为 空 
f.close() 
+EH for 循环 输出 文件 内 容 
for line in open("news-today.txt","r",encoding='UTF-8'): 
print (line,end='\n')# 输 出 读 取 的 内 容 , 并 为 每 行 结 尾 加 上 换行 符 
£.close() 
# 将 程序 的 输出 , 写 人 到 文件 中 
file out-open ("out.doc", "w") r£ — 4 X fF "out. doc", "w" 表 示 以 可 写 的 形 
式 打开 
principal=1000 # 本 人 金 
rate=0.05 # 利 率 
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print("The content is:",content) 
elif suffix--".png": 

content-"image/png" 

print("The content is:",content) 
elif suffix--".txt": 

content-"text/txt" 

print ("The content is:",content) 
else: 


raise RuntimeError ("Unknown content type!") 


30 文件 的 输入 和 输出 

Python 语言 中 内 置 了 open() 函 数 用 于 返回 一 个 新 的 文件 对 象 ,通过 调用 
该 对 象 的 方法 可 以 执行 各 种 文件 操作 ,如 调用 该 文件 对 象 的 readline() 方 法 可 
以 读 取 文 件 中 一 行 的 全 部 内 容 , 包 括 每 行 结 尾 的 换行 符 也 能 同时 读 取 。 使 用 
readline() 方 法 读 至 文件 结尾 时 ,将 返回 空 字符 串 。 因 此 ,为 了 读 取 一 个 文件 的 
全 部 内 容 , 需 要 循环 读 取 每 一 行 ,直到 readline() 方 法 返回 空 值 为 止 。 

在 用 open() 函 数 打 开 文 件 时 ,可 通过 传人 特定 的 参数 ,表明 打开 文件 的 方 
式 , 如 传人“r” 参 数 时 表明 以 只 读 的 形式 打开 文件 ;传人 “w” 参 数 时 表明 以 可 写 
的 形式 打开 文件 ;传人 “rw” 参 数 时 表明 以 读 写 的 形式 打开 文件 。Python 语言 中 
还 可 以 使 用 input() 函 数 实现 交互 式 地 读 取 用 户 的 输入 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 文件 输入 和 输出 ,示例 代码 如 下 
所 示 。 


#3) 文 件 的 输入 和 输出 
# 读 取 文件 内 容 , 并 循环 输出 
f-open("news-today.txt","r",encoding- 'UTF-8') # 返 回 一 个 文件 对 象 , 文 
件 内 容 为 中 文 时 ,用 “UTF- 8” 编 码 方式 , "r" 表 示 以 只 读 的 形式 打开 文件 
line-f.readline ()# 调 用 readline() 方 法 ,每 次 读 取 一 行文 件 内 容 
while line: 
print (line,end='')# 输 出 读 取 的 内 容 , 并 忽略 换行 符 
line-f.readline ()# 继 续 读 取 文件 的 下 一 行 ,直到 line 值 为 空 
f.close() 
+EH for 循环 输出 文件 内 容 
for line in open("news-today.txt","r",encoding='UTF-8'): 
print (line,end='\n')# 输 出 读 取 的 内 容 , 并 为 每 行 结 尾 加 上 换行 符 
£.close() 
# 将 程序 的 输出 , 写 人 到 文件 中 
file out-open ("out.doc", "w") r£ — 4 X fF "out. doc", "w" 表 示 以 可 写 的 形 
式 打开 
principal=1000 # 本 人 金 
rate=0.05 # 利 率 


numYears=10 # 年 数 
year=1 #58 1 年 开始 
while year<=numYears: 
principal=principal * (l+rate) 
# print ("%3d $0.4f" $(year,principal),file-file out) # 向 文件 对 象 中 写 
入 数据 
file out.write("$3d $0.4f \n" $(year,principal)) # 向 文件 对 象 中 写 人 
数据 
yeart=1 
file out.close() 
# 交 互 式 输入 和 输出 
name=input ("Enter your name :")# 在 IPython console 中 输入 名 字 


print ("Your name is "name)# 输 出 你 的 名 字 


4) 字符 串 

Python 语言 中 可 用 三 种 方式 创建 字符 串 , 分 别 是 将 字符 串 放 在 单 引 号 、 双 
引号 或 三 引号 中 。 创 建 字符 串 时 ,前 后 使 用 的 引号 必须 是 对 应 且 配 对 的 。 其 中 ， 
两 个 三 引号 之 间 出 现 的 所 有 文本 都 被 视 为 字符 串 的 内 容 , 而 使 用 单 引号 和 双 引 
号 指定 的 字符 串 必须 在 一 个 逻辑 行 上 。Python 语言 将 字符 串 存 储 在 字符 序列 
中 ,因此 可 以 使 用 整数 作为 索引 来 提取 字符 串 中 的 部 分 字符 , 且 索 引 从 0 开始 。 
需要 连接 两 个 字符 串 时 ,可 以 使 用 "十 ?运算 符 。 如 果 字 符 串 为 纯 数 字 字 符 , 则 
Python 不 会 自动 将 字符 串 的 内 容 隐 式 地 解释 为 数值 ,但 可 以 使 用 int() 或 float() 
函数 显 式 地 将 字符 串 转 换 为 数值 。 如 果 需 要 将 数值 转换 为 字符 串 , 则 需要 使 用 
str() PR Bt. 

我 们 以 一 个 示例 来 说 明 Python 语言 的 字符 串 操 作 ,示例 代码 如 下 所 示 。 


#4) 字 符 串 及 相关 用 法 

a="Hello Python" 

b='Python is groovy' 

c=''' Content-type: text/html 

«hl1»Hello Python</hl1> 

Click<a href="http://www.python.org">here</a>. 
wer 

print (c) 

d-a[4] #d='o' 

e-a[:5] #e='Hello' 

f=a[6:] #f='Python' 

g-a[3:8] #g='lo Py' 

h=at+" This is atest!" #h='Hello Python This is atest!' 
# 字 符 串 为 数字 时 ,加 法 执行 的 是 字符 串 拼接 

x="37" 
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y="86" 

z-xty #z='3786' 

# 要 执行 数学 计算 ,首先 要 使 用 int OR float () 等 函数 将 字符 串 转 换 为 数值 
w=int (x)+int (y) #w=123 

i="3.14" 

j=float (i)# 使 用 int(i) 则 会 出 错 

# 将 数值 转换 为 字符 串 


s="The value of x is "+str(z) 


5) 列表 

Python 语言 中 的 列表 是 由 任意 对 象 组 成 的 序列 ,把 数据 放 人 方 括号 中 就 可 
以 创建 列表 ,也 可 使 用 list() 函数 来 创建 列表 。 列 表 的 索引 是 从 0 开始 的 整数 ， 
使 用 append O 函数 可 将 新 的 数值 追加 到 列表 末尾 ,使 用 insert O ek Bea 5 39r AY 
数值 插入 到 列表 指定 索引 的 位 置 。 

列表 可 以 包含 任意 种 类 的 Python MA. AHWR. MEN RPA 
的 数据 需要 使 用 多 次 索引 才能 访问 到 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 列表 操作 ,示例 代码 如 下 所 示 。 


#5) 列 表 及 其 应 用 

fruits- ["Apple","Banana","Orange","Pear"] 

a-fruits[2] # 结 果 为 Orange 

fruits[0]- "Cherry" #fruits 的 第 一 项 改 为 "cherry" 
fruits.append("Strawberry") #"Strawberry" 被 添加 到 了 列表 末尾 
fruits.insert(2,"Blueberry") # 在 索引 为 2 的 列表 位 置 ,插入 "Blueberry" 
b-fruits[0:2] # 提 取 子 列表 (切片 ) ,返回 ['Cherry', 'Banana'] 

c-fruits[2:] # 提 取 子 列表 (切片 ) iR Il [' Blueberry', 'Orange', 'Pear', ' 
Strawberry'] 

d= [1,2]+[3,4,5] # 结 果 是 [1,2,3,4,5], 用 + 连接 列表 

e= [] # 创 建 一 个 空 列 表 

f-list() # 创 建 一 个 空 列表 

g- [1, "Dave",3.14, ["Make", 7,9, [100,101]],10] # 列 表 中 的 元 素 可 以 包含 任意 
类 型 的 Python 对 象 

g[1] # 返 回 Dave 

g[3] [2] # 返 回 9 

g[3][3][1] # 返 回 101 


6) 元 组 

Python 语言 中 创建 元 组 非常 简单 ,只 需要 把 一 组 数值 放 和 人 圆 括号 中 即 可 创 
建 元 组 。 我 们 同样 可 以 创建 包含 0 个 元 素 和 1 个 元 素 的 元 组 。 和 列表 一 样 , 也 
可 以 使 用 数字 索引 来 提取 元 组 中 的 值 。 然 而 ,更 常见 的 做 法 是 将 元 组 解 包 为 一 
组 变量 。 
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尽管 元 组 支持 的 大 部 分 操作 与 列表 相同 (如 索引 、 切 片 `. 连 接 等 ) ,但 创建 元 
组 后 不 能 修改 它 的 内 容 ( 无 法 蔡 换 、 删 除 现 有 元 组 中 的 元 素 , 也 无 法 向 现 有 元 组 
中 添加 新 元 素 )。 这 说 明 需 要 将 元 组 看 成 一 个 由 多 个 部 分 组 成 的 单一 对 象 ,而 不 
是 可 在 其 中 插入 或 删除 项 的 不 同 对 象 的 集合 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 元 组 操作 ,示例 代码 如 下 所 示 。 


Dr 


1 
' 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
' 
| 
# 6) 元 组 及 其 应 用 i 
stock- ('GZMT',10000,785.71) # 用 圆 括号 创建 元 组 i 
person- ('First Name','Last Name', 'Phone Number') # 用 圆 括号 创建 元 组 | 
a= () #0 元 组 ( 空 元 组 ) i 
b= ("name",) #1 元 组 (注意 随后 的 逗号 ) i 
name, shares,price=stock # 将 元 组 解 包 为 一 组 变量 ' 
first name,last name,phone-person # 将 元 组 解 包 为 一 组 变量 i 
#portfolio.csv 文件 中 各 行 的 格式 为 "CODE, SEC. NAME, CLOSE, SHARES" i 
filename="portfolio.csv" 
portfolio-[] i 
for line in open (filename): i 

fields-line.split(",") # 将 每 行 划分 为 一 个 列表 | 

code-fields[0] # 提 取 并 转换 每 个 字段 e» 

sec name-fields[1] 

close-float(fields[21]) 

shares=int (fields[3]) 

stock= (code,sec name,close,shares) # 创建 一 个 元 组 (code, sec_name, 
close, shares) 

portfolio.append(stock) # 将 记录 追加 到 列表 中 
portfolio[0] # 输 出 为 ('600000.SH',，' 浦 发 银行 ', 12.69, 10000) 
portfolio[0][0] # 输 出 为 '600000 .SH' 
portfolio[0] [2] # 输 出 为 12.69 
# 获取 该 投资 组 合 总 持仓 
total_cash=0.0 
for code,sec name,close,shares in portfolio: 

total cash *-close * shares 


total cash # 输 出 总 持仓 


7) 集合 

Python 语言 中 集合 用 于 包含 一 组 无 序 的 对 象 ,用 set() 函数 创建 集合 。 跟 
列表 和 元 组 不 同 ,集合 是 无 序 的 ,也 无 法 通过 数字 进行 索引 ;此 外 ,集合 中 的 元 素 
也 不 能 重复 ,如果 赋值 给 集合 时 存在 重复 的 元 素 , 则 只 会 保存 一 个 。 

集合 支持 一 系列 标准 操作 ,如 并 集 、 交 集 、 差 集 和 对 称 差 集 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 集合 操作 ,示例 代码 如 下 所 示 。 


#7) 集 合 及 其 应 用 
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t-set([3,5,8,10,18, 'y', 'H']) # 输 出 结果 为 {3, 5, 8, 'y', 10, 'H', 18} 
s-set ("Hello Python") # 输 出 结果 为 {' t, 'H', 'P', 'e', th', '1', 'n', 
foh, ver, nt 

a-t|s $t 和 s 的 并 集 

b-t&s kt Ail s 的 交集 

c=t-s #t 和 s 的 差 集 (fe c 中 ,但 不 在 s 中 ) 

d-t^s #t 和 s 的 并 集 (在 t 或 s 中 ,但 不 会 同时 出 现在 两 者 中 ) 

t.add('x') # 添 加 一 项 

s.update([8,18,28]) # 在 s 中 添加 多 项 


s.remove ('e') # 删 除 'e' 


8) 字典 

Python 语言 中 字典 是 一 个 关联 数组 或 散 列 表 , 其 中 包含 通过 键 (key) 8 
的 对 象 。 尽 管 字符 串 是 最 常用 的 键 类 型 ,但 还 可 以 使 用 其 他 的 Python 对 象 作 
为 键 类 型 ,如 数值 和 元 组 。 需 要 注意 的 是 列表 和 字典 等 对 象 不 能 作为 键 类 型 , 因 
为 它们 的 内 容 可 以 发 生变 化 。 如 果 想 获取 一 个 字典 的 所 有 关键 字 , 则 只 需要 将 
字典 转换 为 列表 即 可 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 字典 操作 ,示例 代码 如 下 所 示 。 


#8) 字 典 及 其 应 用 
stock={"code":"600000.SH","sec_name":" 浦 发 银行 ", "close":12.69, 
"shares":10000) # 创 建 字典 
stock["code"] # 返 回 600000.SH 
total=stock["close"] * stock["shares"] 
stock["shares"]-500 # 修 改 对 象 
total2=stock["close"] * stock["shares"] 
stock["date"]="2018.1.10" 
stock # 和 输出 {'close': 12.69, 'code': '600000.SH','date': '2018.1.10', 
"sec name': ' 浦 发 银行 ', 'shares': 500} 
a-() # 创 建 一 个 空 字 典 
b-dict() # 使 用 Python 关键 字 dict 创建 字典 
keywords=list (stock) # 获 取 字 典 所 有 关键 字 
del stock["sec_name"] 
stock # 输 出 {'close': 12.69, 'code': '600000.SH', 
'date': '2018.1.10', 'shares': 500} 
prices-("600519":747.93,"603444":204.74," 603833":139.03," 603180": 
137.65,*"603160":93.35) 
p=0 
if "600519" in prices: 

p=prices ["600519"] 
else: 

p=0.0 


def divide (a,b): 

q-a//b 

r=a-q*b 

return (q,r) 
# 调 用 函数 
result=remainder (93,20) 
quotient, remainder=divide (93,20) 
result # 结 果 为 13 
quotient # 结 果 为 4 
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2 remainder #442 W 13 
用 count=0 
def modifyGlobal(): 
2 global count # 修 改 全 局 变量 的 值 时 ,需要 首先 用 global 关键 字 声 明 
count +=1# 修 改 全 局 变量 的 值 
语 return count 
modifyGlobal () # 返 回 值 为 1, 表 明 全 局 变量 修改 成 功 
X Python 语言 中 有 一 种 函数 被 称 为 匿名 函数 或 者 lambda 函数 ,这 其 实 是 一 


" 种 非常 简单 的 函数 : 仅 由 单条 语句 组 成 ,该 语句 的 结果 就 是 函数 的 返回 值 。 匿 
名 函数 是 通过 lambda 关键 字 定 义 的 ,这 个 关键 字 没 有 别 的 含义 ,仅仅 是 说 明 “ 我 
们 正在 声明 的 是 一 个 匿名 函数 ”。 
如 下 ,介绍 3 个 匿名 函数 应 用 的 示例 。 


# 匿 名 函数 示例 1 
def short func(x): 
returnx*2 
equiv short func-lambda x:x*2 
# 如 下 两 种 调用 方法 ,输出 结果 相同 
resultl-short func(2) 
result2-equiv short func(2) 
* 匿名 函数 示例 2 
def apply to_list(a_list,f): 
return [f(x) for x in a list] 
ints- [3,6,1,9,0,18] 
apply to list(ints,lambda x:x * 2) # 输 出 结果 为 : [6, 12, 2, 18, 0, 36] 
T 匿名 函数 示例 3 
strings=['foo','card','bar','bbbb', 'cddc'] 
strings.sort (key=lambda x:len(set (list (x)))) 
strings # 输 出 结果 为 :  ['bbbb', 'foo', 'cddc', 'bar', 'card'] 


1D 对 象 和 类 
Python 语言 中 一 切 都 是 对 象 。 对 象 由 内 部 数据 和 各 种 方法 组 成 ,这 些 方法 
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会 执行 与 这 些 数 据 相 关 的 各 种 操作 。 前 述 示例 中 ,在 处 理 像 字符 串 和 列表 这 样 
的 内 置 类 型 时 ,已 经 用 到 了 对 象 和 方法 。Python 语言 中 使 用 dirO 函数 可 列 出 
对 象 上 的 可 用 方法 。 使 用 class 语句 可 定义 新 的 类 ,以 实现 面向 对 象 编 程 。 类 定 
义 中 使 用 def 语句 定义 新 的 方法 ,每 个 方法 中 的 第 一 个 参数 始终 指向 对 象 本 身 ， 
根据 约定 ,该 参数 的 名 称 为 self。 涉 及 对 象 属性 的 所 有 操作 都 必须 显 式 地 引用 
self 变量 。 以 双 下 划 线 开始 和 结束 的 方法 是 特殊 的 方法 ,如 _init_ 用 于 创建 对 
象 后 初始 化 该 对 象 。 

object 类 型 是 所 有 Python 类 型 的 根 类 型 。 

我 们 以 一 个 示例 来 说 明 Python 语言 的 对 象 和 类 的 操作 ,示例 代码 如 下 
所 示 。 


#3.11 对 象 与 类 
items= [1,45, 67, 89] # 创 建 一 个 列表 
items.append (67) 
items 
dir(items) # 列 出 对 象 items 中 可 用 的 方法 
items. add ([112,113]) # 返 回 [1, 45, 67, 89, 67, 112, 113] 
#class 语句 定义 新 的 对 象 类 型 
class stack (object): 
def init (self): 
self.stack-[] 
def push (self,object): 
self.stack.append (object) 
def pop(self): 
return self.stack.pop() 
def length(self): 
return len(self.stack) 
s=stack() 
s.push ("David") 
s.push (34) 
s.push([1,2,3]) 
x-s.pop() &iR[B [1, 2, 3] 
y=s.pop() # 返 回 34 
del s # 删 除 对 象 s 
dir(stack) # 从 返回 的 结果 中 我 们 可 以 看 出 , dix () 函数 首先 列 出 的 是 继承 自 object 
类 的 一 些 方法 ,最 后 才 是 此 处 我 们 自 定 义 的 push () pop () 和 Length () 三 个 方法 。 


12) 异常 

Python 语言 中 如 果 程 序 运 行 出 现 错误 ,通常 会 导致 程序 终止 。 但 是 ,我 们 可 
以 使 用 try 和 except 语句 来 捕捉 并 处 理 这 些 可 能 产生 的 异常 。 通 常 将 可 能 产生 异 
常 的 代码 段 放 在 try 语句 中 ,这 样 如 果 这 些 代码 产生 异常 , 则 会 将 程序 的 控制 权 传 
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递 给 except 代码 块 中 的 代码 。 如 果 没 有 出 现 错误 ,except 代码 块 中 的 代码 将 被 忽 
略 。 处 理 完 异常 后 ,程序 将 会 继续 执行 紧 跟 在 最 后 一 个 except 代码 块 后 面 的 语句 。 
我 们 以 一 个 示例 来 说 明 Python 语言 的 异常 操作 ,示例 代码 如 下 所 示 。 


#12) 异常 

# 方 式 1: 处 理 异 常 ; 输 出 信息 不 同 , 且 程序 继续 执行 

try: 

” f-open("result.csv","r") 
except IOError as e: 
print (e) 

print ("Program end! \n")# 该 语句 会 被 执行 ,程序 没 中 断 

# 方 式 2: 不 处 理 异 常 ; 输 出 信息 不 同 , 且 程序 中 断 执行 

f=open("result.csv","r") 

print ("Program end! \n")# 该 语句 不 会 被 执行 ,程序 已 经 中 断 

13) 模块 

随 着 程序 变 得 越 来 越 大 ,为 了 便于 维护 ,我 们 通常 需要 把 它 分 为 多 个 文件 。 
为 此 ,Python 允许 把 定义 放 入 一 个 文件 中 ,然后 在 其 他 程序 和 脚本 中 将 其 作为 
模块 导入 。 要 创建 模块 ,可 将 相关 的 语句 和 定义 放 入 与 模块 同名 的 文件 中 ( 注 
意 ,该 文件 的 后 级 必须 是 . py) o 

要 在 其 他 程序 中 使 用 该 模块 ,需要 使 用 import 语句 。import 语句 创建 了 一 
个 新 的 命名 空间 ,并 在 该 命名 空间 中 执行 与 . py 文件 相关 的 所 有 语句 。 要 在 导 
入 后 访问 该 命名 空间 的 内 容 , 只 要 使 用 该 模块 的 名 称 作 为 前 级 即 可 。 如 果 要 使 
用 不 同 的 名 称 导 入 模块 ,只 需要 在 import 语句 后 加 上 as 限定 符 即 可 。 如 果 要 
将 具体 的 定义 导入 到 当前 的 命名 空间 中 ,需要 使 用 from 语句 。 

与 对 象 一 样 ,使 用 dir 函数 也 可 以 列 出 模块 的 内 容 。 

我 们 以 一 个 示例 来 说 明 Python 语言 模块 的 操作 ,示例 代码 如 下 所 示 。 


EXHE:div.py 
def divide (a,b): 
q-a//b 
r-a-q*b 
return (q,r) 
#13) OR 
import div 
a,b-div.divide (1879,51) 
import div as fo 
a,b-fo.divide(1879,51) 
dir (div) 
dir(fo) 


本 书 用 到 的 Python 包 简 介 


1. numpy 


numpy 的 主要 对 象 是 同类 型 元 素 的 多 维 数组 ,这 是 一 个 所 有 的 元 素 都 是 一 
种 类 型 .通过 一 个 正 整数 元 组 索引 的 元 素 表 格 ( 通 常 是 元 素 是 数字 )。 在 numpy 
中 维度 (dimensions) 叫 作 轴 (Caxes) , 轴 的 个 数 叫 作 秩 (Crank) 。 

如 下 示例 中 ,我们 用 arr 表示 numpy 数组 对 象 , 同 时 需要 做 如 下 引入 。 


import numpy as np 


1) 数据 的 输入 和 输出 

np. loadtxt('file. txt): 从 文件 “file. txt? 中 导入 数据 并 返回 ndarray 对 象 

np. genfromtxt('file. csv',delimiter=','); 从 文件 “file. csv” 中 导入 数据 并 
返回 ndarray 对 象 

np. savetxt('file. txt',arr,delimiter="): 将 数组 保存 为 “file. txt” 文 件 

np. savetxt('file. csv',arr.delimiter='.'): 将 数组 保存 为 “file. csv” SC fF 

2) 创建 数组 

np. array([1,2,3,4,5,6]): 创建 一 维 数组 并 返回 ndarray 对 象 

np. array([(1,2,3),(4,5,6)]): 创建 二 维 数组 并 返回 ndarray 对 象 

np. zeros(3) : 创建 长 度 为 3 的 一 维 数组 上 且 数 组 元 素 均 为 0, 返回 ndarray 对 
象 

np. ones((3,4)): 创建 3X4 的 二 维 数组 上 且 数 组 元 素 均 为 1, 返回 ndarray 
对 象 

np. eye(5): 创建 一 个 5X5 的 二 维 数组 且 对 角 线 元 素 均 为 1, 其 他 元 素 均 为 
0, 返 回 ndarray WE 

np. linspace(0,100,6): 创建 一 维 数组 且 其 元 素 为 0 到 100 之 间 的 6 等 分 
数字 ,返回 ndarray WE 

np. arange(0,10,3): 创建 一 维 数组 上 且 其 元 素 为 以 0 为 起 点 , 步 长 为 3, 直 到 
小 于 10 的 所 有 数值 ,返回 ndarray 对 象 

np. full((2,3),8): 创建 2X3 二 维 数组 且 其 所 有 元 素 均 为 8, 返回 ndarray 
对 象 
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np. random. rand(4,5): 创建 4X5 二 维 数组 且 其 所 有 元 素 为 0 一 1 的 随机 
小 数 ,返回 ndarray ME 

np. random. rand(6.7) * 100: 创建 6X7 二 维 数组 且 其 所 有 元 素 为 0 一 100 
的 随机 小 数 , 返 回 ndarray 对 象 

np. random. randint(5.size—(2.3)); 创建 2X3 二 维 数组 上 且 其 所 有 元 素 为 
0 一 4 的 随机 整数 ,返回 ndarray 对 象 

3) 获取 数组 属性 

arr. size: 返回 数组 arr 中 元 素 的 个 数 

arr. shape: 返回 数组 arr 的 维 数 ( 行 数 和 列 数 ) 

arr. dtype: 返回 数组 arr 中 元 素 的 类 型 

arr. astype(dtype) : 强制 转换 数组 arr 中 元 素 的 类 型 为 dtype 

arr. tolist O : 将 数组 arr 强制 转换 为 Python 列表 

np. info(np. eye): 查看 关于 np. eye 的 文档 

4) 复制 .排序 和 调整 数组 

np. copy(arr): 复制 数组 arr, 返 回 ndarray WA 

arr, view(dtype) : 以 指定 dtype 类 型 为 数组 arr 每 个 元 素 建立 视图 

arr. sort): 排序 数组 ,返回 ndarray 对 象 

arr. sort(axis=0): 按 指定 的 轴 排 序数 组 ,返回 ndarray 对 象 

two d arr. flatten(): 将 二 维 数 组 two. d. arr 转换 为 一 维 数组 ,返回 
ndarray 对 象 

arr. T: 返回 数组 arr 的 转 置 ( 行 与 列 互 换 ) 

arr. reshape(3,4): 将 数组 arr 调整 为 3 行 4 列 ,并 不 改变 数据 ,返回 
ndarray 对 象 

arr. resize((5,6)): 将 数组 arr 调整 为 5 行 6 列 , 空 值 用 0 填充 ,返回 
ndarray 对 象 

D 增加 、 删 除 元 素 

np. append(arr. values): 为 数组 arr 增加 元 素 values, 返 回 ndarray WA 

np. insert (arr, 2, values): 为 数组 arr 在 索引 为 2 的 元 素 之 前 插入 元 素 
values, 返 回 ndarray 对 象 

np. delete(arr,3,axis 二 0): 删除 数组 arr 第 3 行 所 有 的 元 素 , 返 回 ndarray 
对 象 

np. delete(arr.4.axis=1); 删除 数组 arr 第 4 列 所 有 的 元 素 , 返 回 ndarray 
对 象 

6) 组 合 与 拆 分 

np. concatenate((arrl.arr2) ,axis 一 0): 将 数组 arr2 按 行 序 拼接 在 数组 
arrl 的 末尾 ,返回 ndarray 对 象 
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np. concatenate( (arrl, arr2), axis = 1): 将 数组 arr2 按 列 序 拼接 在 数组 m | 


arrl 的 右 侧 ,返回 ndarray XJ i 

np. splitCarr.3) : 将 数组 arr 拆 分 为 3 个 子 数 组 ,返回 ndarray MR 

np. hsplitCarr.5) : 将 数组 arr 从 索引 为 5 的 元 素 后 水 平 拆 分 ,返回 ndarray 
对 象 

7) 数组 的 索引 、 切 片子 集 

arr[5]: 返回 数组 arr 的 索引 为 5 的 元 素 

arr[2,5]: 返回 二 维 数组 arr 行 索引 为 2、 列 索引 为 5 的 元 素 

arr[1]—4: 将 数组 arr 索引 为 1 的 元 素 赋值 为 4 

arr[1,3] 王 10: 将 二 维 数组 arr 行 索引 为 1 、 列 索引 为 3 的 元 素 赋值 为 10 

arr[0:3]: 返回 数组 arr 索引 从 0 开始 的 3 个 元 素 ,如 果 arr 为 二 维 数组 则 
返回 索引 从 0 开始 的 3 行 全 部 元 素 

arr[0:3,4]: 返回 二 维 数组 arr 中 索引 从 0 开始 的 3 个 行 中 4 列 的 所 有 
元 素 


arr[0:2]: 返回 数组 arr RIIM 0 开始 的 2 个 元 素 , 如 果 arr 为 二 维 数组 则 
返回 索引 从 0 开始 的 2 行 全 部 元 素 e 

arr[ 1.1]: 返回 数组 arr 中 第 1 列 中 所 有 行 的 元 素 

arr<5: 返回 布尔 型 数组 ,其 中 数组 arr 中 小 于 5 的 元 素 为 True, 大 于 等 于 
5 的 元 素 为 False 

CGarrl 3) &Carr2755) : 返回 布尔 型 数组 

~arr: 返回 布尔 型 数组 的 逆 (True 变 为 False、False 变 为 True) 

arr[arr<5]: 返回 数组 中 小 于 5 的 元 素 

8) 标量 数学 

np. addCarr. 1) : 为 数组 arr 的 每 个 元 素 都 加 1, 并 返回 ndarray 对 象 

np. subtractCarr,2) ; 为 数组 arr 的 每 个 元 素 都 减 2, 并 返回 ndarray WH 

np. multiply(arr.3): 为 数组 arr 的 每 个 元 素 都 乘 3, 并 返回 ndarray 对 象 

np. divideCarr.4) : 为 数组 arr 的 每 个 元 素 都 除 4, 并 返回 ndarray 对 象 

np. power(arr.5): 为 数组 arr 的 每 个 元 素 都 计算 5 次 方 ,并 返回 ndarray 
对 象 

9) 向 量 数学 

np. addCarrl.arr2) ; 将 数组 arrl 和 arr2 的 对 应 元 素 相 加 ,并 返回 ndarray 
对 象 

np. subtract(arrl.arr2) ; 将 数组 arrl 和 arr2 的 对 应 元 素 相 减 ,并 返回 
ndarray 对 象 

nu. multiply(arrl, arr2): 将 数组 arrl 和 arr2 的 对 应 元 素 相 乘 ,并 返回 
ndarray 对 象 
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np. divide Carrl. arr2): 将 数组 arrl 和 arr2 的 对 应 元 素 相 除 ,并 返回 


ndarray 对 象 


np. power(arrl .arr2) ; 将 数组 arr2 中 的 元 素 作 为 数组 arrl 中 对 应 元 素 的 


指数 ,并 返回 ndarray 对 象 


并 返 


R 


对 象 


np. array_equal(arrl,arr2): 判断 数组 arrl 和 arr2 中 对 应 元 素 是 否 相 同 ， 
回 ndarray 对 象 的 布尔 型 数组 

np. sqrtCarr) : 计算 数组 arr 中 每 个 元 素 的 平方 根 ,并 返回 ndarray WR 

np. sinCarr) : 计算 数组 arr 中 每 个 元 素 的 正弦 值 Csin()) ,并 返回 ndarray 对 


np. log(arr): 计算 数组 arr 中 每 个 元 素 的 自然 对 数 , 并 返回 ndarray MA 
np.absCarr): 计算 数组 arr 中 每 个 元 素 的 绝对 值 ,并 返回 ndarray 对 象 

np. ceil(arr) : 对 数组 arr 中 每 个 元 素 向 上 取 整 ,并 返回 ndarray 对 象 

. floorCar) : 对 数组 arr 中 每 个 元 素 向 下 取 整 ,并 返回 ndarray WH 

np. round(arr): 对 数组 arr 中 每 个 元 素 四 舍 五 人 取 整 ,并 返回 ndarray WH 
10) 统计 数值 

np. mean(arr,axis — 0) ; 计算 数组 arr 中 指定 轴 的 均值 ,并 返回 ndarray 


np 


c 


sj 


arr. sumO ; 返回 数组 arr 中 所 有 元 素 的 和 

arr. min) ; 返回 数组 arr 中 最 小 的 元 素 

arr. max(axis=0); 返回 数组 arr 中 指定 轴 的 最 大 元 素 
np. varCarr) : 返回 数组 arr 中 所 有 元 素 的 方差 

np. std(arr,axis=1); 返回 数组 arr 中 指定 轴 的 标准 差 
arr. corrcoef(): 返回 数组 arr 中 所 有 元 素 的 相关 系数 


2. Pandas 


Pandas 提供 了 使 我 们 能 够 快速 便捷 地 处 理 结构 化 数据 的 大 量 数据 结构 和 


函数 ,其 中 两 个 主要 数据 结构 是 DataFrame 和 Series。 此 处 ,我 们 以 df 代表 任 
意 的 Pandas DataFrame 对 象 ,s 代表 任意 的 Pandas Series 对 象 , 同 时 我 们 需要 
做 如 下 的 引入 : 


import pandas as pd 


import numpy as np 


1) 导入 数据 

pd. read_csv(filename): 从 CSV 文件 导入 数据 

pd. read_table(filename): 从 限定 分 隔 符 的 文本 文件 导入 数据 
pd. read excelCfilename) : 从 Excel 文件 导入 数据 
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pd. read. sql(query. connection_object): 从 SQL 表 / 库 导入 数据 

pd. read_json(json_string): 从 JSON 格式 的 字符 串 导入 数据 

pd. read html Curl): 解析 URL、 字 符 串 或 者 HTML 文件 ,抽取 其 中 的 
tables 表格 

pd. read_clipboard(): 从 你 的 粘贴 板 获取 内 容 , 并 传 给 read_table() 

pd. DataFrame(dict) : 从 字典 对 象 导 入 数据 ,Key 是 列 名 ,Value 是 数据 

2) 导出 数据 

df. to_csv(filename): 导出 数据 到 CSV 文件 

df. to_excel(filename): 导出 数据 到 Excel 文件 

df. to_sql(table_name，connection_object) : 导出 数据 到 SQL 表 

df. to_json(filename): 以 Json 格式 导出 数据 到 文本 文件 

df. to htmlCfilename) : 导出 数据 到 HTML 文件 

df. to_clipboardO : 导出 数据 到 粘贴 板 

3) 创建 测试 对 象 

pd. DataFrame(np. random. rand(20,5)): 创建 20 行 5 列 的 随机 数组 成 的 
DataFrame 对 象 eo» 

pd. Series(my_list): 从 可 和 迭代 对 象 my_list 创建 一 个 Series MA 

df. index = pd. date range('1900/1/30'. periods=df. shape[0 D : 增加 一 
个 日 期 索引 

4) 查看 、 检 查 数据 

df. head(Cn) : 查看 DataFrame 对 象 的 前 n fT 

df. tail(n): 查看 DataFrame 对 象 的 最 后 n fT 

df. shapeO : 查看 行 数 和 列 数 

df. infoO : 查看 索引 、 数 据 类 型 和 内 存 信息 

df. describeO : 查看 数值 型 列 的 汇总 统计 

s. value counts(dropna— False) : 查看 Series 对 象 的 唯一 值 和 计数 

df. apply(pd. Series. value counts): 查看 DataFrame 对 象 中 每 一 列 的 唯一 
值 和 计数 

5) 数据 选取 

df[col]: 根据 列 名 ,并 以 Series 的 形式 返回 列 

df[[coll. col2]]: 以 DataFrame 的 形式 返回 多 列 

s.ilocL0]: 按 位 置 选取 数据 

s. loc['index one']: 按 索引 选取 数据 

df. iloc[0. ; ]: 返回 第 一 行 

df. iloc[ 0.0 ]; 返回 第 一 列 的 第 一 个 元 素 

6) 数据 清理 
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df. columns=['a'.'b'.'c']: 重 命名 列 名 

pd. isnull() : 检查 DataFrame 对 象 中 的 空 值 ,并 返回 一 个 Boolean 数组 

pd. notnullO : 检查 DataFrame 对 象 中 的 非 空 值 , 并 返回 一 个 Boolean 数组 

df. dropnaO : 删除 所 有 包含 空 值 的 行 

df. dropna(axis=1): 删除 所 有 包含 空 值 的 列 

df. dropna(axis=1.thresh=n): 删除 所 有 小 于 mn 个 非 空 值 的 行 

df. fillnaGO : 用 x 替换 DataFrame 对 象 中 所 有 的 空 值 

s. fillna(s. mean): 用 均值 填充 所 有 的 na 

s. astype( float): 将 Series 中 的 数据 类 型 更 改 为 float 类 型 

s. replace(1.'one’): FA ‘one’ {CMA EF 1 的 值 

s. replace([ 1.3 ].['one'.'three' D : 用 'one' 代 替 1, 用 'three' 代 替 3 

df. rename(columns=lambda x: x + 1): 批量 更 改 列 名 

df. rename(columns= {'old_name': new | name'}): 选择 性 更 改 列 名 

df. set index('column one) ; 更 改 索引 列 

df. rename(index=lambda x: x + 1): 批量 重 命名 索引 

7) 数据 处 理 : Filter, Sort 和 GroupBy 

dfLdfLcol] > 0.5]: 选择 col 列 的 值 大 于 0.5 的 行 

dfLCdf[col] 之 0.5) &.Cdf[ col] 70. 72]: 选择 col 列 的 值 大 于 0.5 且 小 于 
0.7 的 行 

df. sort_values(coll): 按照 列 coll 排序 数据 ,默认 升序 排列 

df. sort_values(col2，ascending 王 False) : 按照 列 coll 降序 排列 数据 

df. sort. valuesC[coll.col2]. ascending=[ True, False D : 先 按 列 coll 升序 
排列 ,后 按 col2 降序 排列 数据 

df. groupby(col) : 返回 一 个 按 列 col 进行 分 组 的 Groupby XJ 4 

df. groupby([ coll.col2 D : 返回 一 个 按 多 列 进行 分 组 的 Groupby 对 象 

df. groupby(coll)[col2]. mean O : 返回 按 列 coll 进行 分 组 后 , 列 col2 的 
均值 

df. pivot_table(index= coll. values —[col2.col3]. aggfunc— max): 创建 
一 个 按 列 coll 进行 分 组 ,并 计算 col2 和 col3 的 最 大 值 的 数据 透视 表 

df. groupby(coll). agg(np. mean) : 返回 按 列 coll 分 组 的 所 有 列 的 均值 

data. apply(np. mean) : 对 DataFrame rf ff &j— 5i Jw HI ER np. mean 

data. apply (np. max. axis = 1); 对 DataFrame 中 的 每 一 行 应 用 函数 
np. max 

8) 数据 合并 

dfl. append(df2) : 将 df2 中 的 行 添加 到 dfl 的 尾部 

pd. concat([ dfl. df2].axis=1); 将 df2 中 的 列 添加 到 dfl 的 尾部 
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dfl. join(df2,on= coll ,how='inner'): 对 dfl 的 列 和 df2 的 列 执行 SQL 形 
式 的 join 

pd. merge(dfl,df2); 合并 dfl 和 df2 

9) 数据 统计 

df. describe() : 查看 数据 值 列 的 汇总 统计 

df. mean(): 返回 所 有 列 的 均值 

df. corrO ; 返回 列 与 列 之 间 的 相关 系数 

df. count(): 返回 每 一 列 中 的 非 空 值 的 个 数 

df. max(): 返回 每 一 列 的 最 大 值 

df. min(): 返回 每 一 列 的 最 小 值 

df. median © : 返回 每 一 列 的 中 位 数 

df. stdO ; 返回 每 一 列 的 标准 差 


3. Matplotlib 


Matplotlib 是 一 个 用 于 创建 高 质量 图 表 的 绘图 包 ( 主 要 是 2D 图 形 )。 如 果 
需要 绘制 3D 图 形 ,需要 使 用 mplot3d 的 插件 。 
1) 准备 数据 


# 一 维 数据 

import numpy as np 

x=np.linspace(0, 10, 100) 

y=np.cos (x) 

z=np.sin(x) 

# 二 维 数据 或 图 像 

data=2 * np.random.random((10, 10)) 
data2=3 * np.random.random((10, 10)) 
Y, X=np.mgrid[-3:3:100j, -3:3:1003] 
U--1-X**2 +Y 

V=1 +X -Y**2 

from matplotlib.cbook import get_sample data 


img-np.load(get sample data('axes grid/bivariate normal.jpg')) 
2) 创建 绘图 


import matplotlib.pyplot as plt 

+ Al (figure) 

fig=plt.figure() 
fig2=plt.figure(figsize=plt.figaspect (2.0)) 
# 坐 标 轴 

fig.add axes() 
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axl-fig.add subplot (221) 
ax3-fig.add subplot (212) 
fig3, axes-plt.subplots (nrows-2,ncols-2) 


fig4, axes2-plt.subplots (ncols-3) 


3) 绘图 的 范例 


# 一 维 数据 绘图 

fig, ax-plt.subplots() 
lines-ax.plot (x, y) 

ax.scatter (x, y) 

axes [0,0] .bar([1,2,31, [3,4,5]) 

axes [1,0].barh([0.5,1,2.5], [0,1,2]) 
axes[1,1].axhline(0.45) 
axes[0,1].axvline(0.65) 
ax.fill(x,y,color-'blue') 

ax.fill between (x,y,color-'yellow') 
# 向 量 绘图 
axes [0,1] .arrow(0,0,0.5,0.5) 


axes [1,1] .quiver (y,z) 


axes [0,1].streamplot (X,Y,U,V) 
# 数据 分 布 图 

axl.hist(y) 

ax3.boxplot(y) 

ax3.violinplot (z) 

# 绘 二 维 数据 图 或 图 像 

fig, ax=plt.subplots () 
im-ax.imshow(img,cmap-'gist earth',interpolation- 'nearest',vmin- 
-2,vmax-2) 

axes2[0].pcolor (data2) 
axes2[0].pcolormesh (data) 
CS-plt.contour(Y,X,U) 
axes2[2].contourf (datal) 
axes2[2]-ax.clabel(CS) 


4) 定制 化 绘图 
# 颜 色 


pit.plot (x, x, x, x* *2, x, x* * 3) 
ax.plot(x, y, alpha-0.4) 

ax.phot(x, y; c-'k") 

fig.colorbar (im, orientation- 'horizontal') 
im-ax.imshow (img,cmap-'seismic') 


# 标 记 
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ax.scatter(x,y,marker=".") 

ax.plot(x,y,marker="0") 

# 线 型 

plt.plot (x,y, linewidth=4.0) 

plt.plot(x,y,ls-'solid') 

plt.plot(x,y,ls='--') 

plt.plot(x,y,'--',x* *2,y* *2,'-.") 
plt.setp(lines,color-'r',linewidth-4.0) 

# 标注 

ax .text (1,-2.1, 'Example Graph',style-'italic') 
ax.annotate("Sine", xy= (8, 0), xycoords= ' data ', xytext= (10.5, 0), 
textcoords- ' data ', arrowprops = dict (arrowstyle =" - >", connectionstyle- 
"arc3"),) 

# 数 字 文本 

plt.title(r'$ sigma i-15$ ', fontsize=20) 

3 坐标 范围 .比例 缩放 

ax.margins (x=0.0,y=0.1) es 
ax.axis('equal') 

ax.set(xlim-[0,10.5],ylim-[-1.5,1.5]) 

ax.set xlim(0,10.5) 

# 标题 


ax.set (title='An Example Axes',ylabel-'Y-Axis',xlabel-'X-Axis') 


ax.legend(loc='best') 

# 标记 

ax.xaxis.set(ticks-range(1,5),ticklabels- [3,100,-12,"foo"]) 
ax.tick params (axis-'y',direction-'inout',length-10) 

# 绘 制 子 图 

fig3.subplots adjust(wspace-0.5,hspace-0.3,left-0.125,right-0.9, 
top=0.9,bottom=0.1) 

fig.tight layout() 

# 坐标 轴 分 区 

axl.spines['top'].set_visible (False) 


axl.spines['bottom'].set position(('outward',10)) 


5) 保存 绘图 
# 保存 图 像 


plt.savefig('foo.png') 
# 保 存 为 透明 的 图 像 


plt.savefig('foo.png', transparent=True) 
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6) 显示 绘图 清空 和 关闭 窗口 


plt.show () 
plt.cla() Clear an axis 
plt.clf() Clear the entire figure 


plt.close() Close a window 


4. Scikit-learn 


Scikit-learn 是 用 于 机 器 学 习 的 开源 Python 库 , 它 集成 了 大 量 的 机 器 学 习 
算法 ,还 包括 数据 预 处 理 、 较 差 验 证 和 可 视 化 算法 等 。 
1) 加 载 数据 


import numpy as np 

X=np.random.random( (10,5)) 

yenp.array(['M', 'M','F', 'F',"M',"E*,"M', "M', "F", Ey "F")) 
X[X<0.7]=0 


2) 训练 样本 和 测试 样本 


from sklearn.model selection import train test split 


X train,X test,y train,y test-train test split(X,y,random state-0) 


3) 数据 预 处 理 


# beet (Standardization) 

from sklearn.preprocessing import StandardScaler 
scaler-StandardScaler().fit(X train) 
standardized X-scaler.transform(X train) 
standardized X test-scaler.transform(X test) 
# 归 一 化 (Normalization) 

from sklearn.preprocessing import Normalizer 
Scaler-Normalizer().fit(X train) 

normalized X-scaler.transform(X train) 
normalized X test-scaler.transform(X test) 

# 特征 二 值 化 (Binarization) 

from sklearn.preprocessing import Binarizer 
binarizer=Binarizer (threshold=0.0) .fit(X) 
binary X-binarizer.transform(X) 

# 编码 分 类 特征 

from sklearn.preprocessing import LabelEncoder 
enc=LabelEncoder () 


y=enc.fit_transform(y) 


# 填充 缺失 值 


from sklearn.preprocessing import Imputer 


imp=Imputer (missing values=0, strategy='mean', axis= 


imp.fit_transform(X_train) 

# 产 生 多 项 式 特征 

from sklearn.preprocessing import PolynomialFeatures 
poly=PolynomialFeatures (5) 

poly.fit transform(X) 


4) 构建 模型 
s# 有 监督 机 器 学 习 -线性 回归 


from sklearn.linear_model import LinearRegression 
lr-LinearRegression (normalize=True) 

# 有 监督 机 器 学 习 - 支 持 向 量 机 (SVM) 

from sklearn.svm import SVC 

svc=SVC (kernel='linear') 

# 有 监督 机 器 学 习 -朴素 贝 叶 斯 

from sklearn.naive bayes import GaussianNB 
gnb-GaussianNB() 

# 有 监督 机 器 学 习 -K 近邻 (KNN) 

from sklearn import neighbors 
knn-neighbors.KNeighborsClassifier(n neighbors-5) 
# 无 监督 机 器 学 习 - 主 成 分 分 析 (PCA) 

from sklearn.decomposition import PCA 
pca=PCA(n_components=0.95) 

# 无 监督 机 器 学 习 -K 均值 (K-Means) 

from sklearn.cluster import KMeans 


k means-KMeans (n clusters-3, random_state=0) 


5) 拟 合 模型 


# 有 监督 学 习 

lr.fit(X, y) 

knn.fit(X train, y train) 
Svc.fit(X train, y train) 
# 无 监督 学 习 

k means.fit(X train) 


pca model-pca.fit transform(X train) 


6) 预测 
# 有 监督 机 器 学 习 评 估 


y pred-svc.predict (np.random.random((2,5))) 
y pred-lr.predict(X test) 
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y pred-knn.predict proba(X test) 
# 无 监督 机 器 学 习 评估 
y pred-k means.predict(X test) 


7) 模型 检验 


# 分 类 模型 检验 标准 

# OD 准确 度 分 数 

knn.score(X_test, y test) 

from sklearn.metrics import accuracy score 


accuracy score(y test, y pred) 


# (2) 分 类 模型 检验 报告 


from sklearn.metrics import classification_report 


print (classification_report (y test, y pred)) 

# (3) TE PA p 

from sklearn.metrics import confusion_matrix 
print (confusion matrix(y test, y pred)) 

3 回归 模型 检验 标准 

# (1) 平 均 绝对 误差 

from sklearn.metrics import mean absolute error 
y_true=[3, -0.5, 2] 

mean_absolute_error(y true, y pred) 

# (2) 均 方 误差 

from sklearn.metrics import mean squared error 
mean squared error(y test, y pred) 

# (3) R2 分 数 

from sklearn.metrics import r2 score 

r2 score(y true, y pred) 

# 聚 类 模型 检验 标准 

# (1) 兰 德 指数 (Adjusted Rand Index) 

from sklearn.metrics import adjusted_rand_score 
adjusted_rand_score(y true, y pred) 

# (2) 因子 分 布 的 同 质 性 、 均 一 性 (Homogeneity) 


from sklearn.metrics import homogeneity score 


homogeneity score(y true, y pred) 


# (3) V- Measure (均一 性 和 完整 性 的 加 权 平 均 ) 


from sklearn.cross validation import cross val score 
print(cross val score(knn, X train, y train, cv-4)) 
print(cross val score(lr, X, y, cv-2)) 

4 (4) Z XU E (Cross- Validation) 

from sklearn.cross validation import cross val score 
print(cross val score(knn, X train, y train, cv-4)) 


print(cross val score(lr, X, y, cv=2)) 
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1 
8) 模型 优化 H 
1 
# (1) 网 格 搜索 (Grid search, 一 种 寻找 机 器 学 习 模型 最 优 参数 的 方法 ) f 
from sklearn.grid_search import GridSearchCV | 
params-("n neighbors": np.arange (1, 3)," metric": ["euclidean", " 1 
cityblock"]] ; 
grid-GridSearchCV (estimator-knn,param grid-params) 
grid.fit(X train, y train) 1 
print(grid.best score ) ! 
print (grid.best estimator .n neighbors) | 
# (2) 随 机 参数 最 优化 (Randomized Parameter Optimization) 
from sklearn.grid_search import RandomizedSearchCV 
params- ("n neighbors": range (1, 5)," weights": [" uniform", " 1 
distance"] } 
rsearch- RandomizedSearchCV (estimator = knn, param distributions- 1 
params,cv-4,n iter-8, random state-5) 1 
rsearch.fit(X train, y train) ' 
print (rsearch .best score ) ! 
e 


9) 简单 示例 


from sklearn import neighbors, datasets, preprocessing 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy score 
iris-datasets.load iris() 

X, yziris.data[:, :2], iris.target 

X train, X test, y train, y test-train test split(X, y, random state 
=33) 

Scaler-preprocessing.StandardScaler().fit(X train) 

X train-scaler.transform(X train) 

X test-scaler.transform(X test) 
knn-neighbors.KNeighborsClassifier(n neighbors-5) 
knn.fit(X train, y train) 

y pred-knn.predict (X test) 


accuracy score(y test, y pred) 


5. Keras 


Keras 是 一 个 强大 的 、 易 于 使 用 的 深度 学 习 Python 库 , 它 提供 了 高 性 能 深 
度 神 经 网 络 的 API, 可 非常 方便 地 用 于 开发 和 评估 深度 学 习 模 型 。 

1) 数据 集 (Data Sets) 

使 用 Keras 开发 深度 学 习 模 型 时 ,应 当 将 数据 存储 为 Numpy 数组 或 
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Numpy 数组 列表 的 形式 。 
# (1)Keras 内 置 数据 集 


from keras.datasets import boston housing,mnist,cifarl0,imdb 

(x train,y train),(x test,y test)-mnist.load data() 

(x train2,y train2), (x test2,y test2)-boston housing.load data () 
(x train3,y train3), (x test3,y test3)-cifarl0.load data() 

(x train4,y train4), (x test4,y test4)-imdb.load data (num words- 
20000) 

num classes-10 

# (2) 其 他 数据 集 

from urllib.request import urlopen 

data=np. loadtxt (urlopen ("http://archive. ics. uci. edu/ml/machine - 
learning- databases/pima- indians - diabetes/pima- indians - diabetes. 
data"),delimiter=",") 

X=data[:,0:8] 

y=data [:,8] 


2) 数据 预 处 理 (Preprocessing) 


# (1) 顺序 填充 (Sequence Padding) 

from keras.preprocessing import sequence 

x train4-sequence.pad sequences (x train4,maxlen-80) 
x test4-sequence.pad sequences (x test4,maxlen-80) 

# (2)0ne- Hot 编码 (One- Hot Encoding) 

from keras.utils import to categorical 

Y train-to categorical(y train, num classes) 

Y test-to categorical(y test, num classes) 

Y train3-to categorical(y train3, num classes) 

Y test3-to categorical(y test3, num classes) 

# (3) bye ft / IH — tk (Standardization/Normalization) 
from sklearn.preprocessing import StandardScaler 
scaler=StandardScaler ().fit(x_train2) 

standardized X-scaler.transform(x train2) 

standardized X test-scaler.transform(x test2) 

# (4) 训 练 集 和 测试 集 (Train and Test Sets) 

from sklearn.model selection import train test split 
X train5,X test5,y train5,y test5-train test split(X,y,test size- 
0.33,random state- 42) 


3) 模型 架构 (Model Architecture) 


# (1) 序 列 模型 (Sequential Model) 


from keras.models import Sequential 
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model=Sequential () 

model2-Sequential() 

model3-Sequential() 

# (2) 多 层 感知 器 (Multilayer Perceptron) 

# 二 项 分 类 

from keras.layers import Dense 

model.add (Dense (12, input dim= 8, kernel initializer- 'uniform', 
activation='relu')) 

model .add(Dense(8, kernel _initializer='uniform',activation='relu') ) 
model.add (Dense (1, kernel initializer = ' uniform ', activation- ' 
sigmoid')) 

# 多 类 别 分 类 

from keras.layers import Dropout 

model.add (Dense (512,activation='relu', input_shape= (784,))) 
model.add (Dropout (0.2) ) 

model.add (Dense (512,activation="'relu')) 

model.add (Dropout (0.2) ) 

model.add (Dense (10, activation='softmax')) 

# 回归 分 类 

model.add (Dense (64, activation= 'relu',input dim-train data.shape 
(1])) 

model.add (Dense (1) ) 

# (3) 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 

from keras.layers import Activation,Conv2D,MaxPooling2D,Flatten 
model2.add (Conv2D (32, (3,3), padding- 'same',input shape- x train s 
shape[1:])) 

model2.add(Activation('relu')) 

model2.add (Conv2D (32, (3,3))) 

model2.add(Activation('relu')) 

model2.add(MaxPooling2D(pool size- (2,2))) 

model2.add (Dropout (0.25) ) 

model2.add (Conv2D(64, (3,3), padding-'same')) 
model2.add(Activation('relu')) 

model2.add (Conv2D(64, (3, 3))) 

model2.add (Activation ('relu')) 

mode12.add (MaxPooling2D (pool size= (2,2))) 

model2.add (Dropout (0.25)) 

model2.add (Flatten ()) 

model2.add (Dense (512) ) 

model2.add(Activation('relu')) 

model2.add (Dropout (0.5)) 


model2.add (Dense (num classes)) 
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model=Sequential () 

model2-Sequential() 

model3-Sequential() 

# (2) 多 层 感知 器 (Multilayer Perceptron) 

# 二 项 分 类 

from keras.layers import Dense 

model.add (Dense (12, input dim= 8, kernel initializer- 'uniform', 
activation='relu')) 

model .add(Dense(8, kernel _initializer='uniform',activation='relu') ) 
model.add (Dense (1, kernel initializer = ' uniform ', activation- ' 
sigmoid')) 

# 多 类 别 分 类 

from keras.layers import Dropout 

model.add (Dense (512,activation='relu', input_shape= (784,))) 
model.add (Dropout (0.2) ) 

model.add (Dense (512,activation="'relu')) 

model.add (Dropout (0.2) ) 

model.add (Dense (10, activation='softmax')) 

# 回归 分 类 

model.add (Dense (64, activation= 'relu',input dim-train data.shape 
(1])) 

model.add (Dense (1) ) 

# (3) 卷 积 神经 网 络 (Convolutional Neural Network, CNN) 

from keras.layers import Activation,Conv2D,MaxPooling2D,Flatten 
model2.add (Conv2D (32, (3,3), padding- 'same',input shape- x train s 
shape[1:])) 

model2.add(Activation('relu')) 

model2.add (Conv2D (32, (3,3))) 

model2.add(Activation('relu')) 

model2.add(MaxPooling2D(pool size- (2,2))) 

model2.add (Dropout (0.25) ) 

model2.add (Conv2D(64, (3,3), padding-'same')) 
model2.add(Activation('relu')) 

model2.add (Conv2D(64, (3, 3))) 

model2.add (Activation ('relu')) 

mode12.add (MaxPooling2D (pool size= (2,2))) 

model2.add (Dropout (0.25)) 

model2.add (Flatten ()) 

model2.add (Dense (512) ) 

model2.add(Activation('relu')) 

model2.add (Dropout (0.5)) 


model2.add (Dense (num classes)) 
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model2.add (Activation ('softmax')) 

4 (4) 递 归 神 经 网 络 (Recurrent Neural Network, RNN) 

from keras.klayers import Embedding, LSTM 

model3.add (Embedding (20000,128) ) 
model3.add(LSTM(128,dropout-0.2,recurrent dropout-0.2)) 


model3.add (Dense(l,activation-'sigmoid')) 
4) 检查 模型 (Inspect Model) 


model.output_shape Model output shape 
model.summary() Model summary representation 
model.get_config() Model configuration 


model.get_weights() List all weight tensors in the model 
5) 编译 模型 (Compile Model) 


#MLP: Binary Classification 

model.compile(optimizer- 'adam',loss- 'binary crossentropy',metrics- 
['accuracy']) 

#MLP: Multi-Class Classification 

model.compile(optimizer- 'rmsprop',loss- 'categorical crossentropy', 
metrics- ['accuracy']) 

#MLP:Regression 
model.compile(optimizer-'rmsprop',loss-'mse',metrics- ['mae']) 
#Recurrent Neural Network 

model3. compile (loss= 'binary crossentropy ', optimizer = ' adam ', 


metrics- ['accuracy']) 
6) 训练 模型 (Model Training) 


model3.fit (x_train4, y_train4, batch_size=32,epochs=15, verbose=1, 
validation data- (x test4,y test4)) 


7) 模型 评估 
score=model3.evaluate(x_test,y test,batch size=32) 


8) 预测 


model3.predict(x test4, batch size-32) 


model3.predict classes(x test4,batch size-32) 
D 保存 和 重新 加 载 模型 


from keras.models import load_model 
model3.save('model file.h5') 


my model-1load model ('my model.h5') 
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10) 模型 优化 (Model Fine-tuning) 
B 


T 
1 

' 

1 

' 

# (1) BSR EE (Optimization Parameters) i 
from keras.optimizers import RMSprop 
opt=RMSprop (1r-0.0001, decay=1le-6) i 
model2.compile (loss= ' categorical crossentropy ', optimizer = opt, f 
metrics- ['accuracy']) ' 
# (2) 提前 终止 (Early Stopping) ; 
from keras.callbacks import EarlyStopping i 
early stopping monitor=EarlyStopping (patience=2) i 
model3.fit(x train4,y train4,batch size-32,epochs-15,validation 1 
1 

' 

1 

' 

' 

1 

1 

' 

1 

1 

1 

1 

1 

' 

1 

1 


data- (x test4,y test4),callbacks- [early stopping monitor] ) 
11) 简单 示例 


import numpy as np 

from keras.models import Sequential 

from keras.layers import Dense 

data-np.random.random((1000,100)) 

labels=np.random. randint (2,size- (1000,1)) e 
model-Sequential () 

model.add(Dense(32,activation-'relu',input dim-100)) 

model.add (Dense (1, activation='sigmoid') ) 

model.compile (optimizer- 'rmsprop',loss- 'binary crossentropy', 
metrics- ['accuracy']) 

model.fit(data,labels,epochs-10,batch size-32) 


predictions-model.predict (data) 


常用 机 器 学 习 算 法 之 分 类 算法 
比较 及 Python 源 代码 


# 载 人 所 需 Python 包 

import numpy as np 

import matplotlib.pyplot as plt 

from matplotlib.colors import ListedColormap 

from sklearn.model selection import train test split 

from sklearn.preprocessing import StandardScaler 

from sklearn. datasets import make . moons, make . Circles, make 
classification 

from sklearn.neural network import MLPClassifier 

from sklearn.neighbors import KNeighborsClassifier 

from sklearn.svm import SVC 

from sklearn.gaussian process import GaussianProcessClassifier 
from sklearn.gaussian process.kernels import RBF 

from sklearn.tree import DecisionTreeClassifier 

from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier 
from sklearn.naive bayes import GaussianNB 


from sklearn.discriminant analysis import QuadraticDiscriminantAnalysis 


n-.02 # 设 置 画图 的 步 长 


names- ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Gaussian Process", 
"Decision Tree", "Random Forest", "Neural Net", "AdaBoost", 


"Naive Bayes", "QDA"] # 分 类 算法 的 名 称 


classifiers=[ 
KNeighborsClassifier (3), 
SVC (kernel="linear", C=0.025), 
SVC (gamma-2, C=1), 
GaussianProcessClassifier(1.0 * RBF(1.0)), 
DecisionTreeClassifier(max depth-5), 
RandomForestClassifier (max depth- 5, n estimators- 10, max 


features=1), 
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MLPClassifier(alpha-1), 

AdaBoostClassifier(), 

GaussianNB(), 

QuadraticDiscriminantAnalysis ()]# 分 类 算法 的 Python fu 


X, y= make classification (n features = 2, n redundant = 0, n 


informative=2, random state-1, n clusters per class=1)# 产 生 数据 集 
T 使 用 随机 数 产生 数据 集 

rng=np.random.RandomState (2) 

X+=2 * rng.uniform(size=X.shape) 


linearly separable= (X, y) 


datasets- [make moons (noise- 0.3, random state-0),make circles 
(noise-0.2, factor-0.5, random state-1),linearly separable] # fUr 
有 数据 集 , 便 于 循环 处 理 


figure-plt.figure(figsize- (27, 9)) 


i=1 


for ds cnt, ds in enumerate (datasets): 
3 循环 遍历 数据 集 , 对 同一 个 数据 采用 多 种 分 类 算法 ,并 比较 输出 结果 
3 预 处 理 数据 集 , 并 将 其 分 为 训练 集 和 测试 集 
X, y=ds 
X-StandardScaler().fit transform(X) 
X train, X test, y train, y test-train test split(X, y, test size 


7.4, random state- 42) 


x min, x max-X[:, 0].min() -.5, X[:, 0].max() *.5 
y min, y max-X[:, 1].min() -.5, X[:, 1].max() *.5 
xx, yy-np.meshgrid(np.arange(x min, x max, h),np.arange(y min, y 


max, h)) 


# 首 选 绘制 数据 集 的 分 布 图 ,并 设置 标题 为 "Input data" 
cm=plt.cm.RdBu 
cm_bright=ListedColormap (['#FF0000', '#0000FF']) 
ax-plt.subplot(len(datasets), len(classifiers) +1, i) 
if ds_cnt ==0: 

ax.set_title ("Input data") 


# 绘 制 训练 集 分 布 图 


ax.scatter (X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_ 


bright,edgecolors-'k') 


# 绘 制 测试 机 分 布 图 
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ax.scatter(X test[:, 0], X test[:, 1], c-y test, cmap-cm bright, 
alpha-0.6,edgecolors-'k') 

ax.set xlim(xx.min(), xx.max()) 

ax.set ylim(yy.min(), yy.max()) 

ax.set xticks(()) 

ax.set yticks(()) 


i +=1 


# 对 每 个 数据 集 , 分 别 采 用 不 同 的 分 类 算法 

for name, clf in zip(names, classifiers): 
ax=plt.subplot (len (datasets), len (classifiers) +1, i) 
clf.fit(X_train, y train) 


Score-clf.score(X test, y test) 


# 绘 制 决策 边界 ( 按 每 类 样本 的 最 大 值 和 最 小 值 ) 
if hasattr(clf, "decision function"): 

Z-clf.decision function(np.c [xx.ravel(), yy.ravel()]) 
else: 


Z-clf.predict proba(np.c [xx.ravel() +r YY-ravel()])[:, 1] 


# 绘 制 结果 
Z=Z.reshape (xx.shape) 


ax.contourf (xx, yy, Z, cmap=cm, alpha=.8) 


# 绘 制 训 练 数据 集 

ax.scatter (X_train [:, 0], X train[:, 1], c=y_train, cmap=cm_ 
bright,edgecolors-'k') 

# 绘 制 测试 数据 集 

ax.scatter(X test[:, 0], X test[:, 1], c=y_test, cmap=cm_ 


bright,edgecolors-'k', alpha-0.6) 


ax.set xlim(xx.min(), xx.max()) 

ax.set ylim(yy.min(), yy.max()) 

ax.set xticks(()) 

ax.set yticks(()) 

if ds cnt ==0: 

ax.set title (name) 

ax.text(xx.max() -.3, yy.min() *.3, ('$.2£' %score).1lstrip('0 

'),size=15, horizontalalignment='right') 


i +=1 


plt.tight_layout () 
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plt.show ()# 输 出 各 类 分 类 算法 的 结果 比较 图 ,如 图 c-1 所 示 
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图 C-1 分 类 算法 的 结果 比较 图 
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常用 机 器 学 习 算 法 之 预测 算法 
比较 及 Python 源 代码 


# 载 人 所 需 的 包 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import AdaBoostRegressor 
from sklearn import linear model 


from sklearn.svm import SVR 


# 创建 数据 集 

rng=np.random.RandomState (1) 

X=np.linspace(0, 6, 100) [:, np.newaxis] 

y=np.sin(X).ravel() +np.sin(6 * X).ravel() *rng.normal(0, 0.1, X. 
shape[0]) 


# 构建 回 归 模型 

regr l-DecisionTreeRegressor (max depth- 4) 
regr 2- AdaBoostRegressor (DecisionTreeRegressor (max depth-4),n 
estimators-300, random state-rng) 

regr 3-linear model.SGDRegressor() 

regr 4-SVR(kernel-'rbf', C-1e3, gamma-0.1) 
regr 5-linear model.LinearRegression() 

# 拟 合 归 回 模型 

regr_1.fit(X, y) 

regr_2.fit(X, y) 

regr_3.fit(X, y) 

regr_4.fit(X, y) 

regr 5.fit(X, y) 

+ 做 预测 

y_l=regr_1.predict (X) 

y 2-regr 2.predict (X) 

y 3-regr 3.predict (X) 

y 4-regr 4.predict (X) 


y 5- 
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regr_5.predict (X) 


# 绘 制 预测 结果 图 ,如 图 D-1 所 示 


plt. 
plt. 
plt. 


plt 
plit 
plt 
plt 
plt 
plt 


pit. 
pit. 
plt. 


figure() 


scatter (X, y, c= , label="training samples") 


plot (X, y 1, ", label="n_estimators=1", linewidth=2) 
.plot (X, y 2, ", label-"n estimators-300", linewidth-2) 
.plot(X, y 3, ", label-"SGDRegressor") 

-plot (X, y 4, c-"y" , label-"svr rbf") 

-Plot (X, y 5, c-"m" ,label-"svr rbf") 

.xlabel ("data") 

-ylabel ("target") 

title("Prediction Algo Comparison") 

legend () 

show () 


Prediction Algo Comparison 


n_estimators=1 
n_estimators=300 
SGDRegressor 
svr_rbf 

svr rbf 

training samples 


target 


图 D-1 预测 算法 结果 图 


UME 


e 


